ついに出た「動画生成AI」バカにできない出来映え 短い単語を入れるだけでショート動画を生成

ブックマーク

記事をマイページに保存
できます。
無料会員登録はこちら
はこちら

印刷ページの表示はログインが必要です。

無料会員登録はこちら

はこちら

縮小

「Midjourney」は、膨大な量のデータを分析してスキルを学習するニューラルネットワークに依存している。何百万ものデジタル画像と、その内容を説明するキャプションの文章を調べながら、パターンを探す。

誰かがある画像をシステムに説明すると、システムはその画像に含まれる可能性のある特徴のリストを生成する。例えば、犬の耳の上部のカーブかもしれない。別の特徴は、携帯電話のエッジかもしれない。次に、拡散モデルと呼ばれる2つ目のニューラルネットワークが画像を作成し、こうした特徴に必要な画素を生成する。最終的に、その画素をひとまとまりの画像に変換するのだ。

文を1行書くのと同じように動画を生成

従業員数およそ40人、9550万ドルを集めたランウェイのような企業は、このテクニックを使って動画を生成している。何千もの動画を分析することで、同社の技術は、多くの静止画を同様のまとまりのある方法でつなぎ合わせる方法を学習できる。

「動画は、一連のフレーム(静止画)を、動いているように見えるよう組み合わせたものに過ぎない」とバレンズエラは言う。「秘訣は、各フレーム間の関係や一貫性を理解するモデルを訓練することだ」。

「DALL-E」や「Midjourney」といった初期バージョンのツールのように、この技術は時に奇妙な仕方で概念と画像を組み合わせる。バスケットボールをするテディベアを依頼すると、バスケットボールを手にした突然変異のぬいぐるみが出てくるかもしれない。公園で携帯電話を持つ犬をお願いすると、携帯電話を持つ、奇妙な人間の体をした子犬が出てくるかもしれない。

しかし、より多くのデータを使ってシステムを訓練し続ければ、こうした欠点を克服できると専門家たちは考えている。最終的には、この技術によって、文を1行書くのと同じくらい簡単に、動画を作成できるようになると考えている。

「昔は、こうしたことを少しでもしたければ、カメラが必要でした。小道具が、場所が、許可が、資金が、必要だった」と、ペンシルベニア州で出版に携わる作家で、初期段階の生成系映像技術を試してきたスーザン・ボンサー氏は言う。「今は、こうしたものはいっさい必要ない。座って想像するだけでいいのだから」。

(執筆:Cade Metz記者)

(C)2023 The New York Times 

ブックマーク

記事をマイページに保存
できます。
無料会員登録はこちら
はこちら

印刷ページの表示はログインが必要です。

無料会員登録はこちら

はこちら

関連記事
トピックボードAD
ビジネスの人気記事