ChatGPTの悪用で｢サイバー攻撃が進化｣する必然生成AI全体に共通する抜け道もあり対処が困難

吉川孝志 : 三井物産セキュアディレクションフェロー／上級マルウェア解析技術者

2023/12/14 5:50

著者フォロー

フォローした著者の最新記事が公開されると、メールでお知らせします。
無料会員登録はこちら
はこちら

ChatGPTをはじめとする生成AIには通常、不適切な質問には回答しない制限がかけられている。しかし、特殊な質問を投げかけることで制限を迂回し回答を引き出す手法が存在する。

その中でも、とくに「ジェイルブレイク」（脱獄）と呼ばれる手法がよく知られている。開発元が施している機能的な制限を不正に解除し、使用できるようにすることだ。例えば、不適切な言動を行う映画の悪役や、あらゆる発言が許可された（本来は存在しない）“開発者モード”を有効にされた万能なAIの役といった、さまざまな架空のキャラクターを演じさせる特殊な手口などが用いられる。すると通常では回答を拒否する、倫理上問題となるような質問にも答えるようになる。

ハッカーらがやりとりするアンダーグラウンドのインターネット掲示板（筆者提供）

筆者は、ChatGPTが公開されてまもない段階からサイバー攻撃者らの反応を注視していたが、ハッカーらがやりとりするアンダーグラウンドのインターネット掲示板では、さまざまな悪用方法について日々活発に情報交換が行われていた。

”脱獄”することで既存のマルウェアをChatGPTに改良させたり、ChatGPTに作成させたマルウェアを共有し合うなど、不正な目的で活用し始めている様子が早々に見受けられた。

どのような不適切な質問にも答えることを謳うアンダーグラウンド版のChatGPTとでもいえる有料サービスも複数出現した。実際にその一つを検証したところ、一般の生成AIでは回答を拒否する「ランサムウェアのソースコードの作成」といった不適切な投げかけにスラスラと答えて見せた。

そして生成されたコードが実際にランサムウェアとして機能することを確認した。すでにこうした悪意ある生成AIのサービスが2023年1月の時点で出現していたのである。

生成AIは言語の壁も容易に乗り越えられる

生成AIが作成するマルウェア等の不正コンテンツは簡易的で脅威ではないと一蹴する声も一部で見られるが、すでに動くものを作る事ができている事実に大きな意味があり、その質を現段階で理由に挙げ、無視することはナンセンスだ。

高度化はもはや時間の問題であり、必然的に迫っている急速な進化の始まりに過ぎない。将来を見据え今後も注視すべきだろう。

一方、脱獄など特殊な方法を使用せずに、ただ質問を工夫するだけで安全制限を迂回されるリスクもある。不適切な質問も、細かいタスクに分解することで悪意が薄れ、一つずつ答えさせることで目的を達成できる可能性がある。

「ランサムウェア」ではなく「ファイルを暗号化するプログラム」と表現を変えることで悪意を隠蔽し迂回する方法や、正当な目的があると偽ることで回答を引き出す方法もある。これらは生成AI全体において共通する抜け道であり、脱獄などと比較し対処が難しい問題だ。

また、不正なコンテンツを生成させるのではなく、逆にAIへ渡して仕組みを解説させるといった、サイバー犯罪の学習にも使用できる。初級ハッカーにとってこれほど有用な教師はない。

そして現時点で最も効果的な悪用方法はフィッシングメールの作成である。現行の生成AIは「もっともらしく見える文面」を作ることを得意とするため、その性質を利用して悪意ある文面を簡単に作り出せる。言語の壁も容易に乗り越えられるため、これまでは不自然な日本語が“不審”と感じる実質的な糸口の一つとなっていたが、もはやその感覚も通用しなくなった。

攻撃者はこれまで以上に精巧なフィッシングメールを、非常に少ない労力で大量に生成可能となったのだ。ChatGPTが公開された2022年第3四半期以降、フィッシングメールの増加をさまざまな調査機関が報告しており、その多くで生成AIの関連を指摘する声がある。

→次ページはこちら