NHKの字幕「音声自動認識率98%」のカラクリ テキスト化は視聴者だけでなく制作にも活用
字幕のために開発が始まった音声認識技術
――番組出演者のセリフがリアルタイムで字幕になっていく様子に驚かされます。NHK放送技術研究所では、いつごろからこうした音声認識技術の研究に取り組んでいるのでしょうか。
開発の歴史は意外と古く、1990年代には研究がスタートしています。そして90年代半ばには大相撲の決まり手を音声から認識できるレベルに達しました。その後2000年からニュース番組でアナウンサーが話している内容を対象に、音声認識システムを使って自動的に字幕を入れるようになりました。日本のテレビ業界におけるリアルタイムでの字幕化は、これが初めてのケースですね。
――当時、ニュース番組で字幕の必要性が高まった理由は何だったのでしょう?
まず大前提として、字幕には高齢者や耳の不自由な方にニュースを届けるという目的があります。アナログ放送時代は、「クローズドキャプション(表示の有無を切り替えられる字幕)」を使うためには特別な機器が必要でしたが、2003年に始まった地上デジタル放送ではテレビ自体の機能で字幕の表示・非表示が切り替えられるようになりました。それに合わせて、総務省が字幕放送のさらなる普及を目指すという目標を掲げたことから、取り組みが本格化しました。