NHKの字幕「音声自動認識率98%」のカラクリ テキスト化は視聴者だけでなく制作にも活用
さらに、スポーツ実況や情報番組では、実際に放送されている音声を、別室でアナウンサーが読み上げ直し、それを自動認識させる「リスピーク方式」が採用されることも。多少のタイムラグは生じますが、ノイズの入らない静かなブースで入力することで認識精度を高めるやり方ですね。
取材した音声の「テキスト起こし」にも応用
――音声をテキスト化する技術は、字幕以外にどのような用途がありますか?
テレビ報道の舞台裏には、取材内容を速く的確に番組に反映させるために、撮影された映像素材に含まれる音声コメントをテキスト化し、社内へ共有する工程が必ずあります。音声認識技術によってそのテキスト起こしを自動化できれば、制作サイドの作業を大幅に軽減できるのではないかと期待しているんです。
2017年冬から実証実験を始めました。このシステムをどう運用していくかは局全体の判断になりますが、着実に実用レベルに近づきつつあると思います。
――また、音声認識技術システムのインターフェースも、非常に洗練されていますね。
現場で撮影された映像をサーバーにアップロードすると、システム内でカット点ごとにサムネイル化して表示されます。この際、各場面を特徴づける単語を自動的に抽出する仕組みになっているので、番組制作で必要なシーンだけをキーワードから頭出しできます。また、映像から自動認識されたテキストを部分的に選択すると、その部分から映像が再生されるので、間違って起こされたテキストがあっても修正や変更にも対応しやすくなっているのが特徴です。
――こうした使い勝手の良さは、制作スタッフの人々の働き方改革にも寄与するのでは?
そうですね。今のところは従来のテキスト起こしにプラスして、システムへの映像アップロードという新たな作業が増えている段階ですが、映像からのテキスト起こしにかかる時間は従来比で30%減というデータもあります。