テキストが動画にChatGPT｢Sora｣のインパクト文章で指示するだけで映像が動く

石井徹 : モバイル・ITライター

2024/12/20 7:40

著者フォロー

フォローした著者の最新記事が公開されると、メールでお知らせします。
無料会員登録はこちら
はこちら

パラソルで空を飛ぶカワウソの動画（Soraで生成）

踊るスマートフォンの動画（Soraで生成）

静止画からの動画生成も可能だ。商品の写真から360度回転する映像を作ったり、風景写真に動きや天候の変化を加えたりできる。

写真をもとに動画に変換（筆者撮影の写真をもとにSoraで生成）

注目すべきは、その使いやすさだ。ユーザーは「雪の降る山小屋」といった短い言葉でプロンプト（指示文章）を記述するだけでよい。ChatGPTが自動的にそれを「夕暮れ時、雪に覆われた山々を背景に、温かな明かりの漏れる古風な木造の山小屋。煙突から煙が立ち上り、大きな雪片がゆっくりと降り積もっている」といった詳細な指示に変換する。AIへの適切な指示の書き方に悩む必要はない。

簡単なプロンプトを打ち込むと、AIが解釈して動画生成に必要な詳細度まで文章を長くしてくれる（筆者撮影）

操作は映像の設計図となる「ストーリーボード」上で行う。例えば商品の紹介動画を作る場合、最初のシーンで全体を見せ、次に特徴的な部分をクローズアップし、最後に使用シーンを見せる、といった具合に映像の流れを組み立てられる。

生成した映像はさまざまな方法で調整できる。長さを変更したり（Re-cut）、雰囲気を変えて別バージョンを作ったり（Remix）、複数の映像のいいところを組み合わせたり（Blend）、SNS投稿用にループ再生できる短い動画を作ったり（Loop）といった編集が可能だ。

また、プロンプトによる動画の変更も可能だ。例えば、砂漠を歩くマンモスの映像に「マンモスをロボットに変更して」と指示するだけで、同じ動きのロボットの映像に変換できる。また、2つの異なる動画をブレンドして、まったく新しい映像を作り出すことも可能だ。専門的な編集技術がなくても、アイデア次第でさまざまな表現に挑戦できる。

砂漠を歩くマンモスの動画へ指示を加えるだけでロボットに変換された（OpenAIが公開した動画よりスクリーンショット）

映像生成の仕組み

この技術では、まず4K映像のような高品質な映像から「設計図」を作り、映像の本質的な特徴を取り出す。その設計図を時間と空間の「パッチ」という小さな区画に分け、少しずつノイズを加えていく。ChatGPTが文章を単語の並びとして理解するように、AIはこれらのパッチの並びとして映像を理解し、ノイズから設計図を作り出す方法を学習する。

→次ページはこちら