人間に近づいた「GPT-4o」3つの進化のポイント あえて人間ぽくした?広がる「擬人化トレンド」

✎ 1〜 ✎ 6 ✎ 7 ✎ 8 ✎ 最新
著者フォロー
ブックマーク

記事をマイページに保存
できます。
無料会員登録はこちら
はこちら

印刷ページの表示はログインが必要です。

無料会員登録はこちら

はこちら

縮小

その2:ネイティブなマルチモーダル(多メディア対応)機能

テキストや画像、音声など多彩なコンテンツ(メディア)を理解して処理することができる。例えばスマホで撮影された映像に何が映っているかをAIが認識し、それによって視覚障害者に適切なアドバイスをするデモ動画が公開されている。

また自撮り写真をアップロードすると、それを基にしてAIが似顔絵(イラスト)を描いてくれたりもする。

ちなみに「GPT-4o」のoは、本来ラテン語で「全て」を意味する「omni(オムニ)」に由来するという。特に今回の場合はテキスト、動画、音声など「すべてのコンテンツ」という意味であろう。

このようにさまざまなコンテンツを処理するマルチモーダル機能は従来のGPT-4にも用意されていたが、それは各々のコンテンツに対応する複数のソフトウエアモジュールを後からつぎはぎする形で提供されていた。

これに対しGPT-4oは最初からシングルモジュールとして開発されたので、異なる種類のコンテンツをより高速かつスムーズに処理できるようになったという。

AI側でも感情表現ができるように

その3:感情を理解し表現することで人間に近づく

GPT-4oでは、人と自然な会話ができるだけでなく、ユーザー(人間)の感情を読み取り、その気持ちや心理状態に配慮した返答や対応ができるようになった。その一環でもあるが、当然AIの側でもある程度の感情表現が可能になったという。

例えば以下のデモ動画では、自信なさそうに数学の宿題を解こうとする子供をAIが親切にアシストする様子が紹介されている。直角三角形の正弦関数(sinθ)を計算する問題で、子供が「斜辺」と「底辺」を混同したときに、AIは「それは間違い」などと無神経に指摘するのではなく、「うーん、近い」という表現で子供のやる気を促し、最終的に正解へと導く様子が撮影されている

関連記事
トピックボードAD
ビジネスの人気記事