日本語バージョンのために900億円も注ぎ込んだ！アリババが"本気"で作ったAIボイスレコーダーが示す､未来の働き方

高口康太 : ジャーナリスト

2026/02/11 11:30

著者フォロー

フォローした著者の最新記事が公開されると、メールでお知らせします。
無料会員登録はこちら
はこちら

録音はAIによって文字起こしされ、会議や面接などのテンプレートに沿ってAIがまとめてくれる。また、21カ国語に対応したリアルタイム翻訳機能も備えている。なお、リアルタイム翻訳機能は時間無制限で使い放題になっている。月額課金なしでは日英中の3カ国語のみ。有料プランでは21カ国語が対象となる。

機能自体は競合製品と大差はないが、霊音氏は性能面の違いを強調していた。搭載されている全指向性マイクは5基と他社より多く、広範囲の集音が可能。マイクの数が多いことで、話者がどの位置にいたかを識別するAI可視化録音は業界初の機能だという。

また、ハイエンドイヤホンなどに使われる、6nm相当プロセスルールの省電力AIオーディオチップを採用したことでデバイスでのノイズ低減処理が可能になったほか、連続録音が45時間、待機時間が約60日間という駆動時間を達成している。実際に試してみると、数メートル離れた場所からの発話やノイズがある環境でもかなり正確な文字起こしが可能だった。ただ、現在のAIボイスレコーダーはどれも優秀なので、そこまで大きな違いを感じることはなかった。

短期間で劇的進化した日本語認識

特徴的なのはソフトウェアだ。音声認識モデルはアリババが開発した「Fun-ASR」が採用されている。実は2025年10月にプロトタイプ機を試用する機会があったが、その時点での認識精度はかなり劣悪だった。それからわずか3カ月で長足の進歩を遂げ、アメリカのAI企業のモデルに見劣りしない水準に達した。

霊音氏によると、50人のAI専門家が動員され、1040万時間の日本語学習データを使って追加学習したという。日本語の方言や地域によって異なるアクセント、さらには地下鉄のアナウンスの大小の違いといった細部にいたるまで、多くのデータを用いたと明かしている。DingTalk A1のために中国語、英語、日本語のAI強化にモデルのトレーニングに費やしたコストは40億元（約900億円）に達する。

文字起こしの内容をAIが議事録としてまとめた画面。討論のポイントがきちんと拾えている（筆者撮影）

昨年10月の時点では内心厳しいと見ていただけに、そこからの巻き返しに驚かされた。原稿執筆時点でも頻繁なアップデートが続いており、さらなるブラッシュアップが続いている。アリババの開発力の凄まじさを見た思いだ。

さて、議事録を作成するAIもユニークだ。アリババ開発のQwen（クウェン）か、DeepSeek（ディープシーク）を選択できる。日本語処理の精度が気になるところだが、体感では特に問題を感じなかった。AIを使った文字起こしで、もっとも簡易的な方法はChatGPTやGeminiなどの対話型AIを使う方法だが、長い録音だとすべてを正確に文字起こししてくれないケースも多い。

→次ページ情報漏洩に懸念はないのか？