音声とは、「人の声」のことです。
人工知能(AI)の進化が目覚しいですが、そのインターフェースも日々進化しています。
私のよく知るAIは、カメラやディスプレイによる、映像を通したコミュニケーションは得意な気がします。
心理学におけるメラビアンの法則曰く、人のコミュニケーションにおける情報は視覚情報55%、聴覚情報38%、言語情報7%で伝達されるそうです。
全体の半分以下にはなりますが、音声にかかわる技術の進歩はAIの進化に必須だと思います。
(出典: Person of Interest Wiki)
AIをテーマにした米テレビドラマ『Person of Interest』のAIは、優れた知能を持つ一方、人間とのコミュニケーションは難ありでした。
面白くておススメです。
今は「アレクサ、今日の天気教えて」くらいが限界だと思ってますが、もっとくだけた雑談とかもできるようになってほしいです。
AI自体の進化も待ち遠しいです。
この記事では、そんなAIとのコミュニケーションに必須な音声に関する技術をまとめていこうと思っています。
近年ではやはり機械学習を用いたものが増えていると思います。
このような技術の基礎になる基本的な音声処理について、以前少しまとめました⇓

認識技術
音声認識(speech recognition)
音声認識は音声からその内容(文章)を認識する技術です。
SiriやGoogle Assistant、Alexaがやってくれます。
現状触れる機会のとても多い技術だと思います。
GoogleのAPIを用いて試したことがあります。

感情認識(speech emotion recognition)
音声感情認識は、音声から感情を認識する技術です。
怒っている声、悲しんでいる声などを認識します。
以前試したことがありますがまだまだ難しいです。
メルスペクトログラムと機械学習を組み合わせる手法を試しましたがまだ難ありです。

話者認識(speaker recognition)
話者認識(Speaker Recognition)というと、話者識別(Speaker Identification)と話者照合(Speaker Verification)の2つがあります。
漢字、英語の意味通り、複数の話者のデータから、誰の声かを識別するのが話者識別で、話者が本人か否かを確認するのが話者照合です。
話者識別は様々な方法で行うことができます。


話者照合は「Hey, Siri」や「OK Google」などの固定テキストで判断することが多いと思います。
他の人が言ってもなかなか反応しないのはこの話者照合がされているからですね。
病気の診断
番外編ですが、音声を用いた病気の診断も行われているようです。

生成技術
音声合成(Speech synthesis)
文章から音声を合成するテキスト音声合成(TTS:Text-To-Speech)の研究が盛んです。
古いのだと、ボーカロイドなんかもこの一つです。
近年では深層学習を用いた手法が多いですね。
Tacotron等を用いたend-to-endの手法が質の高い音声を合成できるようです。
音質変換(voice conversion)
ボイスチェンジャーですね。
こちらはテキスト音声合成とは異なり、テキストを介さず音声を変換します。
例えば女性の声を男性の声にしたり、変わったのだとバイオリンの音をフルートの音に変換したりします。
こちらのトレンドも同様に深層学習を用いた手法が多いです。
コメント