NHKの字幕「音声自動認識率98%」のカラクリ テキスト化は視聴者だけでなく制作にも活用
今後、機械学習によって認識精度はさらに上がっていきますから、いっそう使い勝手は良くなるはずですよ。
機械学習で話し言葉から書き言葉への自動変換も可能に
――機械学習はどのような部分に生かされているのでしょうか。
たとえば、話し言葉ならではの言葉のつなぎ方などは、音声とそれに対応するテキストの組み合わせパターンを学ぶほど、文章として読みやすく書き起こされるようになります。具体的には、実際には「……と思うんですが」と出演者が話しているシーンでも、テキストでは「……と思いまして」と起こされるなど、話し言葉と書き言葉の修正を自動で判断できるようになっています。
――現在は実証実験中とのことですが、このシステムがNHK内全体で活用されるようになる見通しは?
まだ実証実験をはじめて2~3カ月なので先のことはわかりませんが、今のペースでいけば、2020年までにはより高い精度で実装できるのではないかと思っています。
――音声認識技術によって、視聴者のテレビ体験は今後どのように変わっていくでしょうか。
技術者としては、番組制作の効率やスピードの向上、それに携わるスタッフの省力化で、番組そのもののクオリティが高まることを願っています。その意味で、このシステムは正確さだけでなく速さや使い勝手も重要で、まだまだ改良できる点が多々あるでしょう。そして、その結果として視聴者の皆さんに、より正確な情報が広く伝わるようになれば理想的ですね。
(取材・文:友清 哲/編集:ノオト)