NHKの字幕「音声自動認識率98%」のカラクリ テキスト化は視聴者だけでなく制作にも活用
またこの当時、災害や事故などの避難を伝える重要なニュースが耳の不自由な方々に伝わっていなかったことが発端となって、字幕でニュースの情報を届けたいという声が挙がっていたことも大きな理由の1つです。
昨今、民放で放送されているバラエティー番組の多くでは、耳で聞くだけでは内容を正確に理解しづらい言葉をテロップのような「オープンキャプション(常時表示される字幕)」で伝えていますが、字幕放送(クローズドキャプション)では、アナウンサーの明瞭な音声も含め可能な限り全てを文字でお伝えします。技術的にできるところからカバーしていこうと、発音や発声が認識しやすいアナウンサーのセリフの字幕化から着手したわけです。
さまざまな方式を使い分け字幕化
――やはり、番組内容や語り手によって発音・発声が異なる点が、音声認識技術における障壁ということですね。
アナウンサーの話す言葉は比較的認識しやすいので、音声のクリアなニュース番組では自動音声認識の認識率は98%に達しています。ただ屋外でのロケの場合はどうしてもノイズが多くなりますし、情報番組でのくだけた話し言葉や複数の人間が同時に言葉を発する状況では、やはり認識の難易度は高くなります。そこでNHKでは自動音声認識システムだけでなく、さまざまな方式を使い分けながら、あの手この手で字幕化に取り組んでいます。
――現在、実際にNHKで使われている字幕制作の手法は、どのようなものでしょうか。
現在は番組によって4つの方式を使い分けています。まず、高速入力に適した特殊なキーボードを用いて、人力で字幕を起こす「キーボードリレー方式」。それから、番組音声を直接認識するシステムと、人力での作業を併用する「ハイブリッド方式」。そして、ニュースなど元原稿が存在する番組では、音声認識結果からどの原稿を読み上げているのかを推定して字幕化する「セレクト方式」も活用されています。