音響信号処理用の音データセット紹介と使い方解説まとめ

音響信号のデータセットについて、それぞれの内容とpythonでの使い方をまとめた記事になります。
随時更新予定です。

様々なデータセットが公開されているので、実際に使ったものを中心にデータセットの内容とpythonを用いた使い方を紹介したいと思います。

RAVDESS

The Ryerson Audio-Visual Database of Emotional Speech and Song
https://zenodo.org/record/1188976
感情認識のためのデータセットになります。

  • 24人(男性12人、女性12人)の俳優によるデータベース
  • 感情は "neutral", "calm", "happy", "sad", "angry", "fearful", "disgust", "surprised" で録音
  • 音声は英語
  • 話しているデータセットと歌っているデータセットがある
  • データ長は3~5秒
  • ファイル名に感情や性別等の情報が入っている
pythonを用いた読み込み方
pythonを用いてデータセットを読み込みます。
ホームページからZipファイルをダウンロードしてきて解凍しておきます。
まずファイル名からPandasを用いてデータベースを作ります。
取り出す内容は他にもあるのでサイトの説明を見ると良いと思います。
今回は性別と感情を読み取ります。
次に、データベースを用いて音声を読み込みます。
音声は無音区間を削除してウィナーフィルタをかけておきます。
参考(:pythonで音声信号の前処理~VADとウィナーフィルタ~)

コメント

タイトルとURLをコピーしました