人間に近づいた｢GPT-4o｣3つの進化のポイントあえて人間ぽくした？広がる｢擬人化トレンド｣

✎ 1〜 ✎ 6 ✎ 7 ✎ 8 ✎ 最新

小林雅一 : KDDI総合研究所リサーチフェロー、情報セキュリティ大学院大学客員准教授

2024/05/15 5:00

著者フォロー

フォローした著者の最新記事が公開されると、メールでお知らせします。
無料会員登録はこちら
はこちら

その2：ネイティブなマルチモーダル（多メディア対応）機能

テキストや画像、音声など多彩なコンテンツ（メディア）を理解して処理することができる。例えばスマホで撮影された映像に何が映っているかをAIが認識し、それによって視覚障害者に適切なアドバイスをするデモ動画が公開されている。

また自撮り写真をアップロードすると、それを基にしてAIが似顔絵（イラスト）を描いてくれたりもする。

ちなみに「GPT-4o」のoは、本来ラテン語で「全て」を意味する「omni（オムニ）」に由来するという。特に今回の場合はテキスト、動画、音声など「すべてのコンテンツ」という意味であろう。

このようにさまざまなコンテンツを処理するマルチモーダル機能は従来のGPT-4にも用意されていたが、それは各々のコンテンツに対応する複数のソフトウエアモジュールを後からつぎはぎする形で提供されていた。

これに対しGPT-4oは最初からシングルモジュールとして開発されたので、異なる種類のコンテンツをより高速かつスムーズに処理できるようになったという。

AI側でも感情表現ができるように

その3：感情を理解し表現することで人間に近づく

GPT-4oでは、人と自然な会話ができるだけでなく、ユーザー（人間）の感情を読み取り、その気持ちや心理状態に配慮した返答や対応ができるようになった。その一環でもあるが、当然AIの側でもある程度の感情表現が可能になったという。

例えば以下のデモ動画では、自信なさそうに数学の宿題を解こうとする子供をAIが親切にアシストする様子が紹介されている。直角三角形の正弦関数（sinθ）を計算する問題で、子供が「斜辺」と「底辺」を混同したときに、AIは「それは間違い」などと無神経に指摘するのではなく、「うーん、近い」という表現で子供のやる気を促し、最終的に正解へと導く様子が撮影されている。

→次ページはこちら

← 1 2 3 →

特集一覧

崖っぷちのDX

日立の送配電事業“巨額投資”のなぜ

なり手がいない！シェフ・料理人

ソニーのアニメ覇道

特集一覧はこちら

トピックボードAD

有料会員限定記事

雇用統計が｢不正に操作｣と言い張るトランプの愚

TSMCの技術流出で出たラピダスへの疑いは妥当か

ベイカレント幹部が警鐘を鳴らす｢小粒なDX投資｣

迫る｢2025年の崖｣ITプロジェクトが失敗する必然

編集部厳選､注目の経済ニュース！【8月9日】

岐路に立つ私立大学｢教育再編｣の3つの選択肢

ビジネスの人気記事

トレンドライブラリーAD

連載一覧

連載一覧はこちら

ビジネス
アクセスランキング

1時間
24時間
週間
月間
シェア

※過去1ヶ月以内の記事が対象

» 11～30位はこちら

※過去1ヵ月以内の記事が対象

» 11～30位はこちら

※過去1ヵ月以内の記事が対象

» 11～30位はこちら

※過去1ヵ月以内の記事が対象

» 11～30位はこちら

※週間いいねとシェアの合計(増分)

» 11～30位はこちら

会員記事アクセスランキング

1時間
24時間
週間
月間

※過去1ヵ月以内の会員記事が対象

» 11～20位はこちら

※過去1ヵ月以内の会員記事が対象

» 11～20位はこちら

※過去1ヵ月以内の会員記事が対象

» 11～20位はこちら

※過去1ヵ月以内の会員記事が対象

» 11～20位はこちら

トレンドウォッチAD

週刊東洋経済の最新号

2025年8月9日・16日号

この号を読む定期購読

バックナンバー一覧はこちら

東洋経済の書籍

新刊
ランキング

※3カ月以内に発刊した書籍の中から話題の書籍を紹介しています。