OpenAI のテキストからビデオへのジェネレーターはどれほど「魔法」なのでしょうか?

OpenAI のテキストからビデオへのジェネレーターはどれほど「魔法」なのでしょうか?

ガーディアン紙によると、ChatGPTの新しいツールは、ユーザーのトピックやスタイルに関するテキスト指示に基づいて、最大1分間「物理的な世界の動きをシミュレート」します。

「Sora」(日本語で「空」を意味する)というニックネームが付けられたこのツールは、テーマとスタイルの両方に関するユーザーの指示に従って、最長1分間のリアルなムービーを作成できます。 OpenAIのブログ投稿によると、このモデルは静止画像に基づいてビデオを生成したり、既存の映像を新しい素材で拡張したりすることもできるという。

驚くべきことに、Sora が生成するビデオは驚くほどリアルで、この AI モデルの優れた能力を実証しています。現在、Sora は、より広範囲にリリースされる前に、少数の研究者とクリエイターのみがテストできる状態になっています。ソラの出現は映画業界に大きな影響を与え、ディープフェイク問題をさらに深刻化させる可能性がある。

OpenAI の AI ツールがテキスト プロンプトから作成した先史時代のマンモスのビデオをご覧ください (出典: New York Times)

「私たちは、現実世界でのやりとりを必要とする問題を人間が解決するのに役立つモデルを訓練することを目指して、動いている物理世界を理解しシミュレートすることをAIに教えています」とブログ投稿には書かれている。

上記のマンモスの動画は、Sora が次のテキスト プロンプトから作成しました。「数頭の巨大なマンモスが雪に覆われた草原を歩いています。歩くたびに長い毛が風になびき、遠くには雪に覆われた木々と印象的な雪を頂いた山々、薄い雲と頭上の太陽による午後の光が暖かい輝きを生み出しています。カメラを低い角度から設置し、被写界深度の浅い美しい画像で大型動物を撮影します。

同社は、一部の研究者やビデオ制作者にSoraへのアクセスを開放したと発表したが、一般公開がいつになるかは明らかにしなかった。同社のブログ投稿によると、専門家らはOpenAIの利用規約に準拠しているかどうかをテストする予定で、利用規約では「極端な暴力、ポルノ、憎悪表現、有名人の肖像、または他人の知的財産」を禁止している。

テキストからビデオを作成するだけでなく、Sora では静止画像に基づいてビデオを作成したり、既存のビデオの欠落しているフレームを埋めたり、ビデオを引き伸ばしたりすることもできます。 OpenAI がブログ投稿で共有した Sora 生成ビデオの例には、ゴールドラッシュ時代のカリフォルニアの航空写真や、東京の電車内から撮影されたと思われるビデオなどが含まれています。

Sora が制作したビデオの優れた品質は否定できません。通常、これらのビデオを制作するには、実際のカメラクルーとアニメーターが何時間もかかります。 ChatGPT や AI 画像ジェネレーターが編集やデザインの世界に衝撃を与えたのと同じように、Sora は映画業界に革命を起こす可能性があります。これは、ビデオクリエイターの雇用安定という点では注目に値すると同時に恐ろしい技術です。

以下のビデオは、Sora がいくつかの短い説明だけで作成したものです。「色とりどりの魚や海の生き物でいっぱいの、サンゴ礁の美しく描かれたペーパークラフトの世界。」

OpenAIは、ニューヨークタイムズ紙に対し、リポジトリには著作権者からライセンスを受けた公開ビデオが含まれていると伝えたが、それ以外は、ソラのトレーニングに使用された映像の量や、トレーニングビデオの入手先については明らかにしなかった。

同社は、インターネットから収集した大量の素材を処理し、そのデータセットに含まれる画像やテキストを模倣する能力を持つ合成AIツールのトレーニングにおいて、著作権侵害の疑いで何度も訴えられている。

OpenAIは、ツールが因果関係を理解し​​ていなかったり、空間認識が欠けていたりと、まだ改善の余地があると述べている。左右が混乱したり、人や物体がシーンとどのように相互作用するかを理解できなかったりすることがあります。

しかし、ソラの驚異的なクオリティは、最近AI技術が偽コンテンツの作成に悪用されているという別の懸念も引き起こしている。 OpenAIは、誤解を招くコンテンツの検出に役立つツールを構築し、既存の技術を適用して有害なテキストプロンプトを拒否すると述べた。しかし、多くの人が現在の AI モデルの保護を回避するために使用している方法を考えると、これらの取り組みの成功は疑問が残ります。

OpenAIは2021年にDall-E静止画像ジェネレーターをリリースし、2022年11月には合成AIチャットボットChatGPTをリリースし、急速に1億人のユーザーを獲得しました。

他の AI 企業もビデオ生成ツールをリリースしているが、それらのモデルは数秒の短いクリップしか生成できず、提案とはほとんど関係がないことが多い。

Google と Meta は、合成ビデオツールを開発中であると述べているが、まだ一般には公開していない。 2月14日、同社はChatGPTにさらに深いメモリを追加し、ユーザーの会話をより多く記憶できるようにするテストを発表した。

<<:  OpenAI、テキストから短い動画を生成するツールを発表

>>:  建設における麻の画期的な可能性

推薦する

人工知能チャットボットが遺族に慰めを与える

マイクと巨大スクリーンの前に座ったリュ・ソンユンは、画面に映った男性と会話を始めた。 「ベイビー、私...

ソニーのテレビが自動的にオン/オフになるエラーを修正する方法

ソニーのテレビが自動的にオンとオフになるというエラーは、ユーザーのエンターテイメント体験を中断させる...

緊張が絶えず高まっているにもかかわらず、なぜ原油価格は「落ち着いている」のでしょうか?

1バレル100ドルの閾値を突破できず中東情勢の緊張が高まっているにもかかわらず、米国産原油とブレント...

Asus の携帯​​電話はどの国のブランドですか?使ってみてよかったですか?

Asus の携帯​​電話はベトナムのユーザーに最も人気のあるブランドであり、その高い構成と耐久性だけ...

アルゼンチンの専門家:ベトナムはメルコスールとASEANの貿易協力のモデルである

ブエノスアイレスでのVNA記者とのインタビューで、ラモネダ氏は、近年ベトナムはアルゼンチンだけでなく...

先史時代の人々が鳥を誘い出す方法についての手がかりが発見される

ネイチャー・サイエンティフィック・リポート誌に掲載された研究によると、イスラエル、オーストリア、米国...

観光産業における質の高い人材の育成

このプロジェクトは、ベトナムのハノイ、カインホア、ダナンの3つの地域での就職機会をサポートし、スキル...

世界初、地上とオンラインで接続された航空機ブラックボックスが発売

ブラックボックスは飛行中にコックピットで何が起こっているかを記録し、飛行機に事故が発生した場合に何が...

【アドバイス】2023年に最高かつ最高品質のテレビブランドはどれを購入すべきでしょうか?

どのテレビブランドを購入するのが良いかは、今日多くの顧客が興味を持っている質問です。市場にはさまざま...

見逃せない格安防水スマホTOPリスト

美しいデザインと最新技術に加えて、販売価格と耐水性も携帯電話を購入する際の重要な基準です。そのため、...

Google Passkey とは何ですか?登録方法と効果的な使い方

世界パスワードデーを機に、従来のパスワードを使用しない未来を目指す目的で、Google Passke...

エアフライヤー使用時のよくある間違い

油を使わないフライヤーは、便利で使いやすく、調理が早く、油をほとんどまたは全く使用しないため健康に非...

4月30日から5月1日まで、タイニン省のバデン山では多くのアクティビティが観光客を魅了します。

今年の4月30日から5月1日まで、毎日朝から連続して開催されるユニークなアートショーで、無形文化遺産...

料理は観光地の宣伝や紹介、観光客の滞在期間の延長に役立ちます

第20回ホーチミン市観光フェスティバルの一環として、TSTtourist社は、ベトナムのケーキ職人で...

エベレストで初の合法スカイダイビング

このイベントは、多くの冒険愛好家に、世界最高峰の山への「登って飛ぶ」旅に参加する機会を提供します。主...