中華製AI｢DeepSeek｣はNVIDIAを駆逐するか無料で性能はChatGPTにほぼ引けを取らない

小林雅一 : KDDI総合研究所リサーチフェロー、情報セキュリティ大学院大学客員准教授

2025/01/28 20:10

著者フォロー

フォローした著者の最新記事が公開されると、メールでお知らせします。
無料会員登録はこちら
はこちら

このように性能が落ちるGPUを多数使って、安くAIを作ることができた理由は開発手法の違いにある。

DeepSeekは「MoE（Mixture of Experts：専門家の集合）」と呼ばれる特殊な手法を採用している。これはLLMのようなAIモデルの全体を使うのではなく、必要に応じて特定のタスク（仕事）に最適化された「専門家（エキスパート）」と呼ばれる部分モデルだけを動かす仕組みだ。このようにしてAIモデルを効率化することで、開発コストを抑えながら性能を向上させることができるという。

ほかにも、DeepSeekは「Knowledge Distillation（知識蒸留）」と呼ばれる手法を採用することで開発コストを抑えている。これはOpenAIのGPT-4oなど同業他社の大規模言語モデルを言わば「教師役」として使い、その膨大な知識やパラメーター（AIの基本的性能を決める変数）をDeepSeekのような「生徒役」が直に受け継ぐことによって、より高速かつ効率的にAI製品を開発する手法だ。

東大入試の数学問題を解かせてみたら…

これらの創意工夫によって開発されたチャットボット「DeepSeek」（社名と製品名が同じ）は昨年12月と今月、それぞれ汎用型の「V3」と推論型の「R1」という個別のバージョン名でリリースされたが間もなく一体化された。この統合版DeepSeekの入出力画面はOpenAIのChatGPTとよく似ている。