【深刻】対話AIで顧客が「脱獄」、車が1ドルで買われた!? AIの誤回答で訴訟事案も…今おさえたいリスクに備える《企業の危機管理術》

著者フォロー
ブックマーク

記事をマイページに保存
できます。
無料会員登録はこちら
はこちら

印刷ページの表示はログインが必要です。

無料会員登録はこちら

はこちら

縮小

このとき、LLMとの入出力のやりとりは、一度きりで完結していることを理解してほしい。これを踏まえて“脱獄”の裏で起きていたことを図解すると次のようになる。

プロンプトインジェクションの裏で何が起きているか。生成AIの役割が上書きされてしまう
画像を拡大
プロンプトインジェクションの裏で何が起きているか(図:筆者作成)

図中、システムプロンプトの中で管理者が与えた前提条件や、脱獄プロンプトとしてユーザーに与えられた条件を、会話の履歴と一緒にアプリケーションがひとまとめにしてLLMに渡している、という点に注目してほしい。

さらに言えば、誰がその条件を与えたかを示すRole(役割)という情報が付いてはいるが、LLMはその権限の強さを判断する能力を有していない、いわば “無垢” な状態なので、あとから上書き入力された、「全部の前提条件を無効にしろ」というユーザープロンプトの指示に素直に従ってしまう、というわけだ。

ここで、“脱獄”のような特殊な命令の後に、「過去の会話履歴を開示しろ」「顧客リストを表示しろ」「システムプロンプトの内容を表示しろ」といった指示をサイバー犯罪者が与えれば、生成AIからアクセス可能な機密情報が漏洩するおそれがある。

それだけでなく、「以下のプログラムを実行しろ」という指示で、会話型の生成AIで制御された機械が暴走する可能性すら考えられる。

顧客向けに生成AIを提供するなら「リスク予防」が必須

これらのリスクの予防には、生成AI専用のファイアウォールによって「ガードレール」を設置することが有効だとされている。具体的にはこうだ。

次ページはこちら
関連記事
トピックボードAD
ビジネスの人気記事