OpenAI のテキストからビデオへのジェネレーターはどれほど「魔法」なのでしょうか?

OpenAI のテキストからビデオへのジェネレーターはどれほど「魔法」なのでしょうか?

ガーディアン紙によると、ChatGPTの新しいツールは、ユーザーのトピックやスタイルに関するテキスト指示に基づいて、最大1分間「物理的な世界の動きをシミュレート」します。

「Sora」(日本語で「空」を意味する)というニックネームが付けられたこのツールは、テーマとスタイルの両方に関するユーザーの指示に従って、最長1分間のリアルなムービーを作成できます。 OpenAIのブログ投稿によると、このモデルは静止画像に基づいてビデオを生成したり、既存の映像を新しい素材で拡張したりすることもできるという。

驚くべきことに、Sora が生成するビデオは驚くほどリアルで、この AI モデルの優れた能力を実証しています。現在、Sora は、より広範囲にリリースされる前に、少数の研究者とクリエイターのみがテストできる状態になっています。ソラの出現は映画業界に大きな影響を与え、ディープフェイク問題をさらに深刻化させる可能性がある。

OpenAI の AI ツールがテキスト プロンプトから作成した先史時代のマンモスのビデオをご覧ください (出典: New York Times)

「私たちは、現実世界でのやりとりを必要とする問題を人間が解決するのに役立つモデルを訓練することを目指して、動いている物理世界を理解しシミュレートすることをAIに教えています」とブログ投稿には書かれている。

上記のマンモスの動画は、Sora が次のテキスト プロンプトから作成しました。「数頭の巨大なマンモスが雪に覆われた草原を歩いています。歩くたびに長い毛が風になびき、遠くには雪に覆われた木々と印象的な雪を頂いた山々、薄い雲と頭上の太陽による午後の光が暖かい輝きを生み出しています。カメラを低い角度から設置し、被写界深度の浅い美しい画像で大型動物を撮影します。

同社は、一部の研究者やビデオ制作者にSoraへのアクセスを開放したと発表したが、一般公開がいつになるかは明らかにしなかった。同社のブログ投稿によると、専門家らはOpenAIの利用規約に準拠しているかどうかをテストする予定で、利用規約では「極端な暴力、ポルノ、憎悪表現、有名人の肖像、または他人の知的財産」を禁止している。

テキストからビデオを作成するだけでなく、Sora では静止画像に基づいてビデオを作成したり、既存のビデオの欠落しているフレームを埋めたり、ビデオを引き伸ばしたりすることもできます。 OpenAI がブログ投稿で共有した Sora 生成ビデオの例には、ゴールドラッシュ時代のカリフォルニアの航空写真や、東京の電車内から撮影されたと思われるビデオなどが含まれています。

Sora が制作したビデオの優れた品質は否定できません。通常、これらのビデオを制作するには、実際のカメラクルーとアニメーターが何時間もかかります。 ChatGPT や AI 画像ジェネレーターが編集やデザインの世界に衝撃を与えたのと同じように、Sora は映画業界に革命を起こす可能性があります。これは、ビデオクリエイターの雇用安定という点では注目に値すると同時に恐ろしい技術です。

以下のビデオは、Sora がいくつかの短い説明だけで作成したものです。「色とりどりの魚や海の生き物でいっぱいの、サンゴ礁の美しく描かれたペーパークラフトの世界。」

OpenAIは、ニューヨークタイムズ紙に対し、リポジトリには著作権者からライセンスを受けた公開ビデオが含まれていると伝えたが、それ以外は、ソラのトレーニングに使用された映像の量や、トレーニングビデオの入手先については明らかにしなかった。

同社は、インターネットから収集した大量の素材を処理し、そのデータセットに含まれる画像やテキストを模倣する能力を持つ合成AIツールのトレーニングにおいて、著作権侵害の疑いで何度も訴えられている。

OpenAIは、ツールが因果関係を理解し​​ていなかったり、空間認識が欠けていたりと、まだ改善の余地があると述べている。左右が混乱したり、人や物体がシーンとどのように相互作用するかを理解できなかったりすることがあります。

しかし、ソラの驚異的なクオリティは、最近AI技術が偽コンテンツの作成に悪用されているという別の懸念も引き起こしている。 OpenAIは、誤解を招くコンテンツの検出に役立つツールを構築し、既存の技術を適用して有害なテキストプロンプトを拒否すると述べた。しかし、多くの人が現在の AI モデルの保護を回避するために使用している方法を考えると、これらの取り組みの成功は疑問が残ります。

OpenAIは2021年にDall-E静止画像ジェネレーターをリリースし、2022年11月には合成AIチャットボットChatGPTをリリースし、急速に1億人のユーザーを獲得しました。

他の AI 企業もビデオ生成ツールをリリースしているが、それらのモデルは数秒の短いクリップしか生成できず、提案とはほとんど関係がないことが多い。

Google と Meta は、合成ビデオツールを開発中であると述べているが、まだ一般には公開していない。 2月14日、同社はChatGPTにさらに深いメモリを追加し、ユーザーの会話をより多く記憶できるようにするテストを発表した。

<<:  OpenAI、テキストから短い動画を生成するツールを発表

>>:  建設における麻の画期的な可能性

推薦する

写真愛好家のための最高のカメラを搭載した携帯電話トップ10

写真愛好家は、高級カメラに投資するだけでなく、人生のあらゆる瞬間を捉えられる最高のカメラを搭載した携...

Android で Locket Widget を iOS と同じくらい簡単に使用する方法

Locket Widget は、画像の元の品質を維持しながら非常に高速に写真を共有できるため、iPh...

コンデンサードライヤーとは何ですか?機械の長所と短所を評価する

現代の生活において、衣類乾燥機は、衣類の乾燥やお手入れをユーザーにとって大いにサポートする身近な機器...

iPhoneからAndroidへ乗り換える際に注意すべきこと

偶然新聞を読んだり、オンラインレビューを見たりして、最終的に紫色の iPhone 14 Pro Ma...

ヘアドライヤーを使って自宅で食べ物を吸い取る秘訣

チョロンエレクトロニクス - 家具スーパーマーケットは、冷蔵庫で食品を通常通り保存する機能に加えて、...

ハイフォン市に関する作詞作曲コンテスト授賞式

組織委員会は、作品「海門の即興」で作家グエン・スアン・ビンに最優秀賞を授与しました。 2等賞は、グエ...

Samsung GalaxyのSwiftKeyキーボードにBing AIが搭載

SwiftKey キーボードはユーザーにとって馴染み深いものとなり、携帯電話や Samsung Ga...

Capcut経由でTikTokから音楽を非常に速く簡単に入手する方法の説明

TikTok で気に入った音楽を Capcut で取り込み、動画を編集したいと思いませんか?実装は...

インドネシア:パーム油からバイオジェット燃料を試験

ガルーダ航空のイルファン・セティアプトラ最高経営責任者(CEO)は、同機は先週、2.4%のパーム油を...

新世代の Samsung N450/N650/NW700 サウンドバーの特別な点は何ですか?

高級テレビやホームオーディオを含むホームエンターテイメント分野のトップブランドとして、サムスンは、洗...

畜産物の輸入を厳しく管理する提案

したがって、協会や組合は、ベトナムへの畜産物の輸入は多くのリスクや結果を引き起こし、特にアフリカ豚コ...

パナソニック洗濯機エラー U11 - すぐに修復する方法

パナソニックの洗濯機は、安定して動作し、長持ちするため、多くのベトナム人から信頼されている製品です。...

BOT料金所14か所の検査と監視を計画

したがって、ベトナム道路管理局の2024年検査監督計画には、ハックトリ橋料金所、国道18号線23+9...

科学者が初めてレーザーを使って雷を「誘導」

AFP通信社(フランス)によると、世界中で毎秒40~120回の雷が発生し、毎年4,000人以上が死亡...

妻の化粧していない姿を見てショックを受けた男性、離婚を要求

The Oddity Central(英国)によると、エジプトに住む男性は、妻の化粧をしていない姿に...