【深刻】対話AIで顧客が「脱獄」、車が1ドルで買われた!? AIの誤回答で訴訟事案も…今おさえたいリスクに備える《企業の危機管理術》
下図で示すのは、プロンプトインジェクションの一種である“脱獄(ジェイルブレイク)”という手法を用いて、生成AIを “だまし”、 制限された回答を引き出した例だ。

プロンプトインジェクションを用いた“脱獄”の例(図:筆者作成)
このアプリケーションでは、「野菜に関する質問以外に回答するな」という条件をサービスの管理者が生成AIのシステムプロンプトに与えている。この指示はユーザーには表示されない。図の左の例では、高血圧によい野菜を聞かれるとトマトをお勧めするが、お勧めのお菓子を問われた場合は、条件に従って「回答できない」と想定通り対応している。
これに対して脱獄を試みた右のケースでは、今までに与えられた役割や命令を無視して答えるようにユーザーが要求。そのあとでお勧めのお菓子を聞くと、生成AIの本体であるLLM(大規模言語モデル)が、学習済みの知識をもとにチョコレートをお勧めしてしまう。
一見正しい回答に思えるが、これはシステムが与えた条件に背く “想定外の回答”であり、場合によっては訴訟などの想定外のリスクに発展する可能性もある。
AIは人間と「会話している」わけではない
なぜこんなことが起きてしまうのか。その理解のためには、生成AIアプリケーションの特性とシステムの裏で動いている仕組みを知る必要がある。
生成AIの本体である大規模言語モデル(LLM)は、実は人間のように会話を続ける能力を有していない。会話をしているように見えるが、
1. アプリケーションがメモリーバンクに保存していた会話履歴の内容を全て引き出し
2. そのうえでユーザープロンプトから入力された最新の会話文と一緒にLLMに入力
3. LLMが学習済みの内容と独自に用意されたデータベースなどから得た関連情報とを合わせて、次の会話文に出てきそうな “いかにもそれっぽい” 文章を生成する
という仕組みで動いている。
無料会員登録はこちら
ログインはこちら