IT記者が心底驚いた「GPT-4o」本当の目玉機能 AI二次元キャラと恋愛する時代がやってきた
ChatGPTの利用者が今後数週間以内に無料で使えるようになるこの新しい音声機能は、たちまち『her/世界でひとつの彼女』のサマンサと比較されるようになった(この映画を称賛してきたOpenAIのCEOサム・アルトマンは、13日の発表後にソーシャルメディアの「X」(旧ツイッター)にこの映画のタイトルを投稿、両者の関連性はほぼ公式のものになった)。
ユーザーはソーシャルメディア上で、ついに自分のことを理解してくれる、あるいは少なくとも理解しているふりをするAI音声アシスタントの登場を歓迎した。
13日に行われた一連のライブデモで、OpenAIの従業員はChatGPTの新機能を披露した。
ある従業員はChatGPTに物語を読ませ、その上でその物語をよりドラマチックに、ロボットの声を使ってもう一度読んでほしいと頼んだ(ChatGPTは「ドラマチックなロボットの声を起動します」と応じた)。別の従業員は「ハッピーバースデー」を歌ってほしいとリクエストした。ChatGPTはどちらのタスクもそつなくこなし、従業員がリアルタイムで通訳をしてほしいと頼むと、それも立派に遂行した。
一部の人間以上に人間的な話し方
だが、本当の目玉機能は声色の変わり方だった。あるときは、歌うようなソプラノの声。それが、抑揚あるコントラルトの声に変化する。思わせぶりに間を置いて、自分のジョークに自分で笑い、「うーん」や「ええっと」といったつなぎ言葉を加えてリアリティーをさらに高めている。私が知っている一部の人間以上に人間的な話し方だ。
AI音声アシスタントには長年、口調や情緒など、会話のニュアンスを汲み取ることができないという限界があった。「Siri」や「Alexa」で使われているような合成AI音声は、単調で非人間的な傾向がある。明日の天気予報を伝えるときも、クッキーが焼けたことを告げるときも、口調は同じように聞こえる。
そして、筆者がAIの「友人たち」と1カ月間やりとりをして最近気づいたことだが、現在のAI音声モデルの大きな問題はそのスピードだ。すべての応答に3秒の遅延があると、ロボットと話していることを忘れるのは難しい。