｢生成AI｣今から活用したい人が知るべき驚く盲点自分の考えを文章で書く｢超アナログ能力｣が必要

山本龍彦 : 慶應義塾大学大学院法務研究科教授／栗原聡 : 慶應義塾大学理工学部教授

2023/08/03 10:20

栗原：この「しつけ」がとても重要なんです。そもそもChatGPTと同じぐらいの大きさの大規模言語モデルは、グーグルもフェイスブックも開発していて、OpenAIよりも1年早く公開したのですが、反社会的なことを言ったり、間違いだらけだったりしたため、公開をすぐに止める事態となったのです。

それから1年ほど経ってOpenAIが公開したのがChatGPTなのですが、では、1年間、彼らが何をやっていたかというと、開発ではなくChatGPTのトレーニングです。1年間かけてひたすら、反社会的なことや倫理に反することを言わないようにトレーニングをした。

具体的には、パラメーターの学習が終わったあとに、「こういう質問をしたら、こう答えます」「こうやったら、こうする」といった重みの調整を、人間が1つひとつ“手ほどき”で延々と行ったのです。こうして、無難といえるものに仕上げて出したのがChatGPTなのです。

山本：そこは非常におもしろいなと思います。そうした人間の“手ほどき”や“しつけ”は、実装にあたってどの生成AIもやるのだと思うのですが、「どういう手ほどきをしたのか」が今のところ見えてこない。“手ほどき”の部分はやはり透明化すべきだと思います。

生成AIがブラックボックス化するという点はおっしゃるとおりだと思います。しかし「透明性」という概念を完全にあきらめてしまうのではなく、どのようなデータを学習に使ったかや、どういう価値観に基づいてどのように“手ほどき”したのかは、しっかり説明責任の対象としていくべきではないかと。それぞれのAIがもつ癖は透明化しておかないと、人間の認知がゆがんでしまうと思うんです。

アライメントが施されていないAIが登場する怖さ

栗原：それは同意ですし、そこは「できること」ですよね。「どういうデータを使って学習した」「アライメント（調整）はどのようにやった」は、説明できなければおかしい。

逆に危険なのは、アライメントが施されていないAIがどんどん開発され、野に解き放たれ始めているということです。

山本：なるほど。

栗原：また、OpenAIに対して、イタリアの個人データ保護当局（GPDP）が学習データに含まれる数百万人分の個人情報の使用を停止するよう求めたことがあります（2023年3月）。「あなたたちが学習させたCLIP（Contrastive Language-Image Pre-training）には個人情報が入っているが、欧州の一般データ保護規則（GDPR）に照らしても個人情報を収集する法的根拠がない」というわけです。

OpenAI側としては、それぞれ個人から承諾を得れば使えることにはなりますが……そんなことできるわけがないでしょう、という話です。

→次ページはこちら