その2:ネイティブなマルチモーダル(多メディア対応)機能
テキストや画像、音声など多彩なコンテンツ(メディア)を理解して処理することができる。例えばスマホで撮影された映像に何が映っているかをAIが認識し、それによって視覚障害者に適切なアドバイスをするデモ動画が公開されている。
また自撮り写真をアップロードすると、それを基にしてAIが似顔絵(イラスト)を描いてくれたりもする。
ちなみに「GPT-4o」のoは、本来ラテン語で「全て」を意味する「omni(オムニ)」に由来するという。特に今回の場合はテキスト、動画、音声など「すべてのコンテンツ」という意味であろう。
このようにさまざまなコンテンツを処理するマルチモーダル機能は従来のGPT-4にも用意されていたが、それは各々のコンテンツに対応する複数のソフトウエアモジュールを後からつぎはぎする形で提供されていた。
これに対しGPT-4oは最初からシングルモジュールとして開発されたので、異なる種類のコンテンツをより高速かつスムーズに処理できるようになったという。
AI側でも感情表現ができるように
その3:感情を理解し表現することで人間に近づく
GPT-4oでは、人と自然な会話ができるだけでなく、ユーザー(人間)の感情を読み取り、その気持ちや心理状態に配慮した返答や対応ができるようになった。その一環でもあるが、当然AIの側でもある程度の感情表現が可能になったという。
例えば以下のデモ動画では、自信なさそうに数学の宿題を解こうとする子供をAIが親切にアシストする様子が紹介されている。直角三角形の正弦関数(sinθ)を計算する問題で、子供が「斜辺」と「底辺」を混同したときに、AIは「それは間違い」などと無神経に指摘するのではなく、「うーん、近い」という表現で子供のやる気を促し、最終的に正解へと導く様子が撮影されている。
無料会員登録はこちら
ログインはこちら