「生成AIでゲームキャラと対話」が困難な意外事情 スクエニの「ポートピア」デモでは雑談機能削除

著者フォロー
ブックマーク

記事をマイページに保存
できます。
無料会員登録はこちら
はこちら

印刷ページの表示はログインが必要です。

無料会員登録はこちら

はこちら

縮小

ーー逆に、小規模のゲーム会社であれば恩恵はあると?

そうだ。ゲーム産業全体を見ると、いわゆるインディーゲーム(個人や小規模な組織で開発されたゲーム)は生成AIの導入により大きく影響を受けるだろう。

インディーゲームの場合は、グラフィックを担当する専属のアーティストを抱えておらず外注することも多い。ゼロから画像を生成することができる生成AI技術は魅力的に映る。

ーー会話の自動生成はどうでしょう。

会話の自動生成においても(画像生成と)まったく同じことがいえる。

ロールプレイングゲームでユーザーと村人がChatGPTと対話するようにコミュニケーションが取れたら面白いと思うかもしれない。実際、インディーズでは、そのようなゲームも出てき始めている。

ただ、たとえば村人がいきなり政治に関する発言をしたらどうだろう。差別につながるような問題発言をし出したら? AIの学習データには大量にこうした類のものが含まれている。

また、キャラクター性の統一も難しい。今のChatGPTでも、「ちょっとおちゃらけて話して」「大阪弁を使って」といった要求には十分対応できる。

ただ、このキャラはこういった言葉のチョイスはしない、といった機微には応えられない。もしかしたら、地道にプロンプト(AIへの命令文)を探求すればある程度キャラクター性を統一することも可能かもしれないが、それでも100%の精度は保証されない。100回問題のない会話をして、101回目に“キャラ崩壊”してしまえば、その瞬間にアウトだ。

「倫理的に問題ない発言」保証できず

ーー4月24日、Steam上でAIを搭載した『ポートピア連続殺人事件』の技術デモを公開しました。自然言語処理技術を活用していますが、実装したのは自然言語理解だけで、自然言語生成の機能はあえてつけていません。

まさに、これまで述べた理由からだ。『ポートピア』を使った技術デモでは、自社のデータで(オープンAIの大規模言語モデルである)GPT-2をチューニングをしたもう少し小さな言語エンジンをパッケージして、スタンドアローンで搭載している。

これにより、2022年に開発者向けに発表したバージョンでは打ち込んだ言葉をキャラクターが理解し(自然言語理解)、それに対してキャラクターが返事をする(自然言語生成)ことで、コマンド入力式やコマンド選択式では行えなかった自然な会話ができるようになった。

ただ、自然言語生成の技術は公開の際に実装していない。現在の自然言語技術の水準では、倫理的な問題をクリアした適切な発言を保証するのが難しいとわかったからだ。

現在は、チューニングの仕方を含めて、倫理とセキュリティを保つための研究を進めている。

現在、最新のGPT-4では「強化学習」という手法でなんとかこうした事態を防ぐようにしているが、AIモデルの特性上、完全はない。また、英語では実現できたからといって、日本語でも可能とは限らない。

そこで、会話エンジンを使うためのセキュリティの研究の積み重ねがこれから必要となり、そういった研究を日々進めている。それがデジタルゲームにおける会話エンジン活用の活路を拓く。

ゲーム産業においては、大量のデータで学んだAIがあるからとりあえず使ってみよう、というウェブサービスの感覚でコンテンツを作ることには慎重にならざるを得ない。

しかし、そこにゲーム産業なりの会話エンジンの使い方のノウハウがたまっていく。こうして会話エンジンそのものの新しい進化の方向が示されることになるだろう。

ーー生成AIをもっと制御しやすくする方法はないのでしょうか?

三宅陽一郎(みやけ・よういちろう)/1975年生まれ。京都大学で数学を専攻し、大阪大学修士課程(物理学)、東京大学工学系研究科博士課程(単位取得満期退学)。2011年にスクウェア・エニックス入社。東京大学特任教授・立教大学特任教授・九州大学客員教授(写真:スクウェア・エニックス提供)

(生成AIを活用する)道は大きく2つある。1つは、チューニングで既存の大規模言語モデルをチューニングしていく道。もう1つが、自社で独自の言語モデルを作ってしまうことだ。

ただファインチューニングというのは、中に何が入っているかわからない混沌とした何かに、外側からラップをかけるようなものでブラックボックスの部分は残る。

かといって、独自開発しようとすれば本当にイチから自分たちでやらなくてはならず、そのコストに見合ったメリットがあるかが問われる。

外部から大型の言語モデルを持ってきてチューニングするか、内部で純粋な小型~中型の言語モデルを独自に構築するか、どちらの選択肢もありだと思っている。

また正直なところ、ゲームで活用するうえではGPT-3の規模を超えるとゲーム内でパッケージすることは不可能となり、ゲーム内からサーバーへアクセスする形となる。つまり規模と性能がトレードオフになる。

そこまでして大規模な言語モデルを使う必要があるかは検討する必要がある。ゲーム内のキャラクターが、そこまで物知りである必要はないからだ。ゲームキャラクターに必要なのは、会話を通した感情や個性の表現であり、また会話のノリの中で現在の心境を伝える、というアーティスティックな側面がある。

長期的には言語モデルを応用してキャラクター性や感情が乗るようにできる時代が必ず来ると思う。

ただ少なくともそれは、今のGPTなどの技術からの一直線上にはないだろう。もう一つの新しい会話AI技術の軸があるはずだ。GPTが指し示す膨大な知識を背景とした説明的な会話と、感情や個性を伴ったリズムを持った会話の生成、この2つがあって初めてキャラクターとの会話にAIを搭載できるようになる。

どうやってジェネレーティブAIを使いこなしていくのか。これからのゲーム産業の大きな課題の1つとなるだろう。

武山 隼大 東洋経済 記者

著者をフォローすると、最新記事をメールでお知らせします。右上のボタンからフォローください。

たけやま はやた / Hayata Takeyama

岐阜県出身。東京外国語大学国際社会学部モンゴル語専攻卒。在学中に西モンゴル・ホブド大学に留学。2021年東洋経済新報社に入社し、現在ゲーム・玩具業界を担当。

この著者の記事一覧はこちら
ブックマーク

記事をマイページに保存
できます。
無料会員登録はこちら
はこちら

印刷ページの表示はログインが必要です。

無料会員登録はこちら

はこちら

関連記事
トピックボードAD
ビジネスの人気記事