Anker参入で過熱するAI文字起こしデバイス市場､専用機は本当に必要なのか？ 選ぶ際のポイントとは

1/5 PAGES

2/5 PAGES

会社の会議の議事録作成に使えるかどうかという問いなら、非常に使えると言えるだろう。むしろ、我々の用途よりも議事録の方により向いているかもしれない。

どういうサービスやデバイスがあるのか、その概論を解説するので、ぜひご自身の用途に合ったものを選択していただきたい。

これらのデバイス・サービスが進化した一番の理由は、あたり前のようだがAIの音声認識、言語認識能力が向上したことにある。

日本語の文字起こしデバイスが実用的になり始めたのは、筆者が知る限りでは2020年登場のAutoMemoあたりから。SiriやAmazon Alexaが登場したのは2010年代前半だから、そのあたりから音声認識は進化しつつあったのだろうが、文字起こしデバイスとして役に立つようになったのはここ5～6年だと思う。

ディープラーニング（深層学習）で大きく精度が向上した後、2010年代後半からTransformerベースのアーキテクチャや自己教師あり学習の進展により音声認識精度はさらに向上し、2022年のOpenAI「Whisper」などの大規模モデルの登場で一般利用レベルに到達した。もちろん、さまざまなサービスに組み込まれているAIを使って文字起こしすることもできるが、ハードウェアがあると便利ではある。現在の『文字起こしデバイスブーム』は、これらのクラウドAIの進化を、一般ユーザーが使いやすいデバイスのカタチに取りまとめ、課金サービスを構築したところから起こっていると思われる。

デバイスの背後で、何が起こっているか？

最先端の大規模LLMの開発には数百億円規模の投資が必要とされることもあり、膨大なGPUクラスタ、数千億トークンの学習データが必要になる。つまり、Google、OpenAI、Anthropicレベルの巨大企業が、巨額の投資をかけて行うものになっている。文字起こしデバイスの多くは、大手AI企業のAPIを利用するか、同等の大規模モデルを自社クラウド上で運用していると考えられる。

まず、録音。そしてその音声データをクラウドに送り、クラウドで上記AI巨大企業のSST（音声認識）を行い、その後GPT系、Gemini系、Claude系のLLMで言語補正、整形などを行う。そしてさらにLLMで要約したり、議事録のカタチに取りまとめる……というのがこれらサービスのおおまかな仕組みだ。