音声に関する技術をまとめる~AIとのコミュニケーションツール~

 音声とは、「人の声」のことです。
 人工知能(AI)の進化が目覚しいですが、そのインターフェースも日々進化しています。
 私のよく知るAIは、カメラやディスプレイによる、映像を通したコミュニケーションは得意な気がします。

 心理学におけるメラビアンの法則曰く、人のコミュニケーションにおける情報は視覚情報55%、聴覚情報38%、言語情報7%で伝達されるそうです。
 全体の半分以下にはなりますが、音声にかかわる技術の進歩はAIの進化に必須だと思います。

(出典: Person of Interest Wiki)
AIをテーマにした米テレビドラマ『Person of Interest』のAIは、優れた知能を持つ一方、人間とのコミュニケーションは難ありでした。
面白くておススメです。

今は「アレクサ、今日の天気教えて」くらいが限界だと思ってますが、もっとくだけた雑談とかもできるようになってほしいです。
AI自体の進化も待ち遠しいです。

 この記事では、そんなAIとのコミュニケーションに必須な音声に関する技術をまとめていこうと思っています。
近年ではやはり機械学習を用いたものが増えていると思います。
このような技術の基礎になる基本的な音声処理について、以前少しまとめました⇓

pythonで音響信号の特徴抽出方法まとめ
このサイトでは音声などの音響信号についての特徴抽出手法を実際にやってみています。 最近深層学習を用いた異常検知等が流行っており、音などの信号から特徴を抽出する手法が多く考えられてきました。 このページでは簡単なものから近年よく用いられる...

認識技術

音声認識(speech recognition)

音声認識は音声からその内容(文章)を認識する技術です。
SiriやGoogle Assistant、Alexaがやってくれます。
現状触れる機会のとても多い技術だと思います。
GoogleのAPIを用いて試したことがあります。

pythonでマイクを用いた音声認識
今回はpythonで音声認識をします。 マイクで入力した音声を文字に変換します。 本当に簡単にやってみるだけです。 色々なことに応用できそうです。 SpeechRecognitionで音声認識 pythonのライブラリのSpeec...
感情認識(speech emotion recognition)

音声感情認識は、音声から感情を認識する技術です。
怒っている声、悲しんでいる声などを認識します。
以前試したことがありますがまだまだ難しいです。
メルスペクトログラムと機械学習を組み合わせる手法を試しましたがまだ難ありです。

pythonで音声から感情認識~メルスペクトログラム&CNN~
今回はpythonを用いて音声データから感情認識(Emotion Recognition)をやってみます。 感情認識は音声から話者の感情を認識する技術のことです。 ariXivの論文を参考に実装してみました。 精度よく...
話者認識(speaker recognition)

話者認識(Speaker Recognition)というと、話者識別(Speaker Identification)と話者照合(Speaker Verification)の2つがあります。
漢字、英語の意味通り、複数の話者のデータから、誰の声かを識別するのが話者識別で、話者が本人か否かを確認するのが話者照合です。

話者識別は様々な方法で行うことができます。

pythonで話者識別~LPC解析とSVM~
今回は話者識別(Speaker Identification)をやってみます。 同じ話者認識(Speaker Recognition)の分野では、他には話者照合(Speaker Verification)というのがあるみたいです。 漢字...
pythonで話者識別~定Q変換とCNN~
以前、LPC解析によって音声の特徴を抽出してSVMによって識別する方法で話者識別をしてみました。 今回は定Q変換による時間周波数解析で特徴抽出を行い、CNNで分類をしていきます。 tensorflowのチュートリアルでも時間周波数解...

話者照合は「Hey, Siri」や「OK Google」などの固定テキストで判断することが多いと思います。
他の人が言ってもなかなか反応しないのはこの話者照合がされているからですね。

病気の診断

番外編ですが、音声を用いた病気の診断も行われているようです。

咳・声の音を用いたAIによるコロナ診断の研究について調べた
最近、英語の勉強を兼ねてarXiv等で論文をちょっと読むようになりました。 新しい研究について知ることができて面白いです。 今回はコロナ(新型コロナウイルス感染症、COVID-19)についての話題です。 近年流行っているコロナにつ...

生成技術

音声合成(Speech synthesis)

文章から音声を合成するテキスト音声合成(TTS:Text-To-Speech)の研究が盛んです。
古いのだと、ボーカロイドなんかもこの一つです。

近年では深層学習を用いた手法が多いですね。
Tacotron等を用いたend-to-endの手法が質の高い音声を合成できるようです。

音質変換(voice conversion)

ボイスチェンジャーですね。
こちらはテキスト音声合成とは異なり、テキストを介さず音声を変換します。
例えば女性の声を男性の声にしたり、変わったのだとバイオリンの音をフルートの音に変換したりします。
こちらのトレンドも同様に深層学習を用いた手法が多いです。

コメント

タイトルとURLをコピーしました