OpenAI のテキストからビデオへのジェネレーターはどれほど「魔法」なのでしょうか?

ガーディアン紙によると、ChatGPTの新しいツールは、ユーザーのトピックやスタイルに関するテキスト指示に基づいて、最大1分間「物理的な世界の動きをシミュレート」します。

「Sora」（日本語で「空」を意味する）というニックネームが付けられたこのツールは、テーマとスタイルの両方に関するユーザーの指示に従って、最長1分間のリアルなムービーを作成できます。 OpenAIのブログ投稿によると、このモデルは静止画像に基づいてビデオを生成したり、既存の映像を新しい素材で拡張したりすることもできるという。

驚くべきことに、Sora が生成するビデオは驚くほどリアルで、この AI モデルの優れた能力を実証しています。現在、Sora は、より広範囲にリリースされる前に、少数の研究者とクリエイターのみがテストできる状態になっています。ソラの出現は映画業界に大きな影響を与え、ディープフェイク問題をさらに深刻化させる可能性がある。

OpenAI の AI ツールがテキストプロンプトから作成した先史時代のマンモスのビデオをご覧ください (出典: New York Times)

「私たちは、現実世界でのやりとりを必要とする問題を人間が解決するのに役立つモデルを訓練することを目指して、動いている物理世界を理解しシミュレートすることをAIに教えています」とブログ投稿には書かれている。

上記のマンモスの動画は、Sora が次のテキストプロンプトから作成しました。「数頭の巨大なマンモスが雪に覆われた草原を歩いています。歩くたびに長い毛が風になびき、遠くには雪に覆われた木々と印象的な雪を頂いた山々、薄い雲と頭上の太陽による午後の光が暖かい輝きを生み出しています。カメラを低い角度から設置し、被写界深度の浅い美しい画像で大型動物を撮影します。 ”

同社は、一部の研究者やビデオ制作者にSoraへのアクセスを開放したと発表したが、一般公開がいつになるかは明らかにしなかった。同社のブログ投稿によると、専門家らはOpenAIの利用規約に準拠しているかどうかをテストする予定で、利用規約では「極端な暴力、ポルノ、憎悪表現、有名人の肖像、または他人の知的財産」を禁止している。

テキストからビデオを作成するだけでなく、Sora では静止画像に基づいてビデオを作成したり、既存のビデオの欠落しているフレームを埋めたり、ビデオを引き伸ばしたりすることもできます。 OpenAI がブログ投稿で共有した Sora 生成ビデオの例には、ゴールドラッシュ時代のカリフォルニアの航空写真や、東京の電車内から撮影されたと思われるビデオなどが含まれています。

Sora が制作したビデオの優れた品質は否定できません。通常、これらのビデオを制作するには、実際のカメラクルーとアニメーターが何時間もかかります。 ChatGPT や AI 画像ジェネレーターが編集やデザインの世界に衝撃を与えたのと同じように、Sora は映画業界に革命を起こす可能性があります。これは、ビデオクリエイターの雇用安定という点では注目に値すると同時に恐ろしい技術です。

以下のビデオは、Sora がいくつかの短い説明だけで作成したものです。「色とりどりの魚や海の生き物でいっぱいの、サンゴ礁の美しく描かれたペーパークラフトの世界。」

OpenAIは、ニューヨークタイムズ紙に対し、リポジトリには著作権者からライセンスを受けた公開ビデオが含まれていると伝えたが、それ以外は、ソラのトレーニングに使用された映像の量や、トレーニングビデオの入手先については明らかにしなかった。

同社は、インターネットから収集した大量の素材を処理し、そのデータセットに含まれる画像やテキストを模倣する能力を持つ合成AIツールのトレーニングにおいて、著作権侵害の疑いで何度も訴えられている。

OpenAIは、ツールが因果関係を理解していなかったり、空間認識が欠けていたりと、まだ改善の余地があると述べている。左右が混乱したり、人や物体がシーンとどのように相互作用するかを理解できなかったりすることがあります。

しかし、ソラの驚異的なクオリティは、最近AI技術が偽コンテンツの作成に悪用されているという別の懸念も引き起こしている。 OpenAIは、誤解を招くコンテンツの検出に役立つツールを構築し、既存の技術を適用して有害なテキストプロンプトを拒否すると述べた。しかし、多くの人が現在の AI モデルの保護を回避するために使用している方法を考えると、これらの取り組みの成功は疑問が残ります。

OpenAIは2021年にDall-E静止画像ジェネレーターをリリースし、2022年11月には合成AIチャットボットChatGPTをリリースし、急速に1億人のユーザーを獲得しました。

他の AI 企業もビデオ生成ツールをリリースしているが、それらのモデルは数秒の短いクリップしか生成できず、提案とはほとんど関係がないことが多い。

Google と Meta は、合成ビデオツールを開発中であると述べているが、まだ一般には公開していない。 2月14日、同社はChatGPTにさらに深いメモリを追加し、ユーザーの会話をより多く記憶できるようにするテストを発表した。

<<: OpenAI、テキストから短い動画を生成するツールを発表

>>: 建設における麻の画期的な可能性