BLEUは生成した文章と、元の文章を比較したときに、単語の重複している数を計算し、中でも連続している単語には高いスコアを与えるという特徴を持った評価尺度である。元の文章をまったく再現できていなければゼロで、再現性が高ければ100のスコアになるように調整した。BLEUは40~50程度あれば人による翻訳と同等程度に自然で高品質な翻訳であるとされる。
再現性の高さを測る例として、ランダムに抜き出した5つの検証用データについて、精度を検証した。次の図表中の生成文は作成したモデル(訓練データは98年1月~19年12月、過去12ヵ月分の経済指標を学習データとした)によって生成された文章である。
まず、5つの検証用データのうち2つは完全に基調判断を再現することができた。また、他もおおむね近い表現になった。ここでは分かりやすさを重視し、完全に再現できたものについては「◎」とし、若干の違いがみられるものには「○」、基本的な判断に違いはないものの、再現性が低いものを「▲」とした。
実際にはこのような手順によって、各文のBLEUを計算し、それを平均してモデル全体のBLEUを算出する。なお、次ページのアベノミクス前後の比較表の作成に用いたモデルのBLEUは55と、再現性の点では良好なスコアとなった。
無料会員登録はこちら
ログインはこちら