面接でよい印象を持たれる｢声｣とは？ ｢人間を超える声｣で変わる現在と未来

昨年末の歌番組で登場し話題になった「AI」歌手。音声合成技術は以前から若者の間で使われておりWEB上で生成した歌声が公開されてきたが、「AI」歌手を目の当たりにすると、「ここまで合成音声は進化したか」と実感させられる出来事だった。

音声合成技術界では、制作の場面でも革新が続く。無償のAI歌声合成ソフト「NEUTRINO（ニュートリノ）」が一般公開され、誰でも簡単にアイドル声優の歌声で楽曲が作れるようになった。ニューラルネットワークを活用して、楽譜さえ入力すれば、発声のタイミングや声の高さ、声質などを推定してビブラートといった歌唱表現すら実現する。

こうした自動化を実現するうえで重要なのは、実はAIだけではない。歌声のデータベースこそがカギを握る。「NEUTRINO」は、声優の歌声を収録した「研究者向け東北きりたん歌唱データベース」を活用している。データベースを制作した明治大学の森勢将雅准教授は、「すでに合成音声は、人間と変わらない自然な発声を実現している」と語る。

合成音声はすでに「人間」と同等に

合成音声の取り組みは古く、バスの車内アナウンスなどでは昔から「次は〇〇です」といった停留所案内などに用いられてきた。これは、「つぎ」「は」「〇〇」「です」といったように名詞や助詞を区切って録音したものを合わせる古い手法だ。ただ、各々をつなげるためイントネーションは人間の発声と比較すると不自然。合成音声とすぐにわかる代物だった。

しかし、現在では、音声を「音素」という細かなパーツに分けて登録する。「研究者向け東北きりたん歌唱データベース」も声優の歌声を手作業で「音素」に分けて分類する。例えば、歌詞の一部の「世界」というワードも「s」「e」「k」「a」「i」と細かく区切り、時に「kai」が「kuwai」といったような歌い方の癖なども分解しながら、ミリ秒単位の調整を行う。このような調整と合成方法の発展により、かつての単語で区切っていたものとは比較にならないほど人間の声や歌声に近い合成音声が実現できた。

医療関係でもこうした「音素」による緻密な合成音声の活用はすでに行われている。例えば、咽頭がん患者へのサポートだ。手術を行う前に、本人の声をさまざまなパターンで録音し、術後に残した本人の声で合成音声を作る製品がある。患者がスマートフォンなどで文章を入力すれば、合成音声を読み上げるのだが、それが術後も本人の声でコミュニケーションが取れる仕組みだ。

これらは、人間の声をまねるための合成音声の進化だ。こうした研究をさらに進めたのが、森勢准教授が研究する「人間を超える声」の活用だ。

印象のよい話し方、就活面接アプリの実用化も⁉

明治大学総合数理学部
先端メディアサイエンス学科森勢将雅准教授

森勢准教授は自身の研究内容を「ミックスジュースの中から原材料を取り出すようなもの」と説明する。人が話す声というのは、実は音の高さやイントネーションだけでなく、感情や心地よさなどさまざまな認知を提供しているからだ。

「例えば、声の高さを段階的に変えていきます。すると聞いた人はどのような印象になるのか、それらを多様なパラメーターで1つずつ試し、スコア化しています。声は楽器と同じですから、身長と体重を変えると声の響き方が変わります。さまざまな声の要素を取り出し、それを分析しているのです」（森勢准教授）

実用化した場合にはどのような利用法があるのだろうか？ 1つには「就活面接アプリ」が考えられるという。女性は地声よりも少し高めに話すと印象がよくなるという研究事例もあるが、どういった声が印象がよいかをデータ化し、スマートフォンアプリにする。就活生がスマホに向かって面接のデモをすると、声の高さや大きさ、抑揚などを添削しアドバイスをしてくれる。すでに技術的には実現が可能だという。

「学生時代、授業中眠くなってしまう声の先生はいましたよね。その先生の声を分析し眠気を誘う成分を強化して合成すれば、不眠症の方のケアができるはずです。また逆に眠くなりにくい声でカーナビのアナウンスができれば居眠り運転の抑止になります。もっと面白い例でいえば、一緒に仕事をしている人のネタですが、音声を時間的に圧縮して脳に刻み込めないかというアイデアもあります。1分間に朗読できる内容を1/5の12秒に圧縮して、それを脳が記憶しやすい状態の音声に加工して聞かせることで聴く時間を節約できます。こういった声というのは人間そのものの声ではなく、人間を超える声の利便性と考えています」（森勢准教授）

音声紹介：①元音源、②女性→男性への変換例の音声、③元音源の再現を狙った合成音、④高さを8%下げた場合、⑤高さを8%上げ「明るさ」を高めた場合の音声

「人間を超える声」をクリエーティブに

もともと、森勢准教授がこの「人間を超える声」で着想していたのは、声の世界の「クリエーティブソフト」だった。

「絵画の世界は、キャラクターなどをデフォルメしてリアルな世界とは異なる物語を描いています。デザインのクリエーティブソフトはメジャーなものがありますが、声の世界にはこのようなデフォルメを実現するソフトウェアがありませんでした。手軽に人々が声を自分自身の好みの印象にデザインできるアプリケーションを作りたいと考えました」

「人間を超える声」を作る

ここで、森勢准教授が重要視していることは、あくまでも制作者がその過程をハンドリングできることだ。「NEUTRINO」などは、ディープラーニングを使っているため、楽譜さえ入れればソフトウェアが歌ってくれるが、その楽譜がどのようにその歌声になるかはブラックボックスだ。「もちろん、自動化の魅力もあります。ですが、クリエーティブな領域では試行錯誤したいというニーズはあるのでは」と森勢准教授は説明する。現在、この音声のクリエーティブソフトは、2022年の完成を目指しているという。

森勢准教授が進める研究は、単に「音声」の領域に収まらない。印象のよい声を探るとしたら心理学にも触れることになるし、AIの方向性を取り入れればディープラーニングに触れる。興味のある分野をマージしながら新たな研究分野を作れるのも魅力だと語る。とくに他学部との交流も活発な明治大学では、コミュニケーションを通して研究のヒントになる刺激も多く受けるという。

いろいろな刺激を受けながら研究される「人間を超える声」。音声が自由に作れる時代になったときに、エンターテインメントの世界はもちろん、社会課題の解決など、どのように役立っていくのか今後の動向が興味深い。