NHKの字幕｢音声自動認識率98％｣のカラクリテキスト化は視聴者だけでなく制作にも活用

2018/09/17 15:00

ニュース番組などで付与される字幕放送。視聴者により正確に、速く情報を伝えるための技術がどのように開発されているのかお聞きしました（写真：news Hack by Yahoo!ニュース）

ニュース番組や情報番組に付与される字幕は、高齢者や耳の不自由な人をサポートする大切な機能です。字幕化を推進する総務省のまとめによれば、総放送時間に占める字幕放送時間の割合は、NHKの84.4％がトップ（2016年度）。NHKが字幕放送に力を入れられる背景には、映像内の音声を自動認識してテキスト化するシステムの開発が大きく影響しています。

NHKの「音声のテキスト化」の技術は視聴者に直接伝える字幕だけでなく、制作の現場での活用も見込んでいるのだそう。さらに機械学習とも連携させることで、取材で得た情報をより正確により速く伝えることを目指しているといいます。

そこで今回はNHK放送技術研究所の佐藤庄衛さんに、すでに実用レベルに達しつつある音声認識技術が報道の現場でどう活用されているのかをお聞きしました。

字幕のために開発が始まった音声認識技術

――番組出演者のセリフがリアルタイムで字幕になっていく様子に驚かされます。NHK放送技術研究所では、いつごろからこうした音声認識技術の研究に取り組んでいるのでしょうか。

本記事はnews HACK by Yahoo!ニュース（運営：ヤフー）の提供記事です

開発の歴史は意外と古く、1990年代には研究がスタートしています。そして90年代半ばには大相撲の決まり手を音声から認識できるレベルに達しました。その後2000年からニュース番組でアナウンサーが話している内容を対象に、音声認識システムを使って自動的に字幕を入れるようになりました。日本のテレビ業界におけるリアルタイムでの字幕化は、これが初めてのケースですね。

――当時、ニュース番組で字幕の必要性が高まった理由は何だったのでしょう？

まず大前提として、字幕には高齢者や耳の不自由な方にニュースを届けるという目的があります。アナログ放送時代は、「クローズドキャプション（表示の有無を切り替えられる字幕）」を使うためには特別な機器が必要でしたが、2003年に始まった地上デジタル放送ではテレビ自体の機能で字幕の表示・非表示が切り替えられるようになりました。それに合わせて、総務省が字幕放送のさらなる普及を目指すという目標を掲げたことから、取り組みが本格化しました。

→次ページ耳の不自由な方々に伝わっていなかった