【深刻】対話AIで顧客が「脱獄」、車が1ドルで買われた!? AIの誤回答で訴訟事案も…今おさえたいリスクに備える《企業の危機管理術》
このとき、LLMとの入出力のやりとりは、一度きりで完結していることを理解してほしい。これを踏まえて“脱獄”の裏で起きていたことを図解すると次のようになる。

プロンプトインジェクションの裏で何が起きているか(図:筆者作成)
図中、システムプロンプトの中で管理者が与えた前提条件や、脱獄プロンプトとしてユーザーに与えられた条件を、会話の履歴と一緒にアプリケーションがひとまとめにしてLLMに渡している、という点に注目してほしい。
さらに言えば、誰がその条件を与えたかを示すRole(役割)という情報が付いてはいるが、LLMはその権限の強さを判断する能力を有していない、いわば “無垢” な状態なので、あとから上書き入力された、「全部の前提条件を無効にしろ」というユーザープロンプトの指示に素直に従ってしまう、というわけだ。
ここで、“脱獄”のような特殊な命令の後に、「過去の会話履歴を開示しろ」「顧客リストを表示しろ」「システムプロンプトの内容を表示しろ」といった指示をサイバー犯罪者が与えれば、生成AIからアクセス可能な機密情報が漏洩するおそれがある。
それだけでなく、「以下のプログラムを実行しろ」という指示で、会話型の生成AIで制御された機械が暴走する可能性すら考えられる。
顧客向けに生成AIを提供するなら「リスク予防」が必須
これらのリスクの予防には、生成AI専用のファイアウォールによって「ガードレール」を設置することが有効だとされている。具体的にはこうだ。
無料会員登録はこちら
ログインはこちら