ブログアドレス:ブログガーデン(転載の場合は出典を明記してください)
ブロガー:リン・ニー・ザン
音声データセット
ション
公式ダウンロードリンク: TIMIT Acoustic-Phonetic Continuous Speech Corpus - Linguistic Data Consortium
無料ダウンロードアドレス: https://goo.gl/l0sPwz (420M)
TIMIT には、米国の 8 つの主要な方言地域の 630 人の話者による 10 文、合計 6300 文が含まれています。
Timit の元データは末尾が wav ですが、形式は wav ではなく sphere 形式なので、Pythonの sphfile ライブラリを使用して wav に変換します。
from sphfile import SPHFile
import glob
import os
if __name__ == "__main__":
path = 'D:/pycharm_proj/corpus/data/lisa/data/timit/raw/TIMIT/TRAIN/*/*/*.WAV'
sph_files = glob.glob(path)
print(len(sph_files),"train utterences")
for i in sph_files:
sph = SPHFile(i)
sph.write_wav(filename=i.replace(".WAV","_.wav"))
os.remove(i)
path = 'D:/pycharm_proj/corpus/data/lisa/data/timit/raw/TIMIT/TEST/*/*/*.WAV'
sph_files_test = glob.glob(path)
print(len(sph_files_test),"test utterences")
for i in sph_files_test:
sph = SPHFile(i)
sph.write_wav(filename=i.replace(".WAV","_.wav"))
os.remove(i)
print("Completed")
VCTK
ダウンロードアドレス:ポータル(10.94Gb)
CSTR VCTK コーパスには、さまざまなアクセントを持つ 110 人の英語話者の音声データが含まれています。各話者は約 400 文を読み上げ、すべての音声データは同じ録音設定を使用して記録されました。無指向性マイク (DPA 4035) と非常に広い帯域幅を持つスモール ダイアフラム コンデンサー マイク (ゼンハイザー MKH 800)、サンプリング周波数 96kHz、24 ビット、エディンバラ大学の半無響室。すべての録音は 16 ビットに変換され、48 kHz にダウンサンプリングされ、エンドポイントは手動で設定されました。
AISHELL-ASR0009-OS1 オープンソース中国語音声データベース
ダウンロードアドレス:ポータル(14.51Gb)
収録時間は178時間で、収録テキストはスマートホーム、無人運転、工業生産など11分野に及ぶ。録音プロセスは静かな屋内環境で、高忠実度マイク (44.1kHz、16 ビット)、Android システム携帯電話 (16kHz、16 ビット)、iOS システム携帯電話 (16kHz) の 3 つの異なるデバイスを同時に使用します。 、16ビット)。Hi-Fi マイクで録音された音声は 16kHz にダウンサンプリングされます。中国のさまざまな地域から、さまざまなアクセントを持つ 400 人の話者が録音に参加しました。
AISHELL-2 中国語音声データベース
期間は1000時間で、そのうち 718 時間は AISHELL-ASR0009 から、282 時間は AISHELL-ASR0010 からのものです。収録テキストは、ウェイクアップワード、音声制御ワード、スマートホーム、無人運転、工業生産など12分野。録音プロセスは静かな屋内環境で、高忠実度マイク (44.1kHz、16 ビット)、Android システムの携帯電話 (16 kHz、16 ビット)、iOS システムの携帯電話 (16 kHz、16 ビット) の 3 つの異なるデバイスを同時に使用します。AISHELL-2はiOS携帯電話で録音された音声データを利用します。1991 年の中国のさまざまな地域からさまざまなアクセントを持つ話者が録音に参加しました。
AISHELL-3 高忠実度中国語音声データベース
再生時間は 85 時間、88035 センテンスで、マルチスピーカー合成システムとして使用できます。録音プロセスは、高忠実度マイク (44.1kHz、16 ビット) を使用し、静かな屋内環境で行われます。中国のさまざまな地域からさまざまなアクセントを持つ 218 人の話者が録音に参加しました。
AISHELL-WakeUp-1 中国語と英語のウェイクワード音声データベース
AISHELL-DMASH 中国語中国語マイク アレイ ホーム シーン スピーチ データベース
AISHELL-4 マルチチャンネル中国語会議音声データベース
Mozilla の共通の声
ダウンロードURL:コモンボイス
長さ: 1965 時間 (これまで)
2017 年にはすでに公開され、継続的に更新されており、財団は Common Voice Web サイトとモバイル アプリを通じて 70 言語のデータを積極的に収集していると述べています。
Mozilla は利用可能な最大の人間の音声データセットを持っていると主張しており、現在のデータセットには中国語を含む 29 の異なる言語が含まれており、40,000 人以上の投稿者からほぼ 2454 時間 (うち 1965 時間は検証済み) の音声データが収集されています。そして、オープン性の約束: 私たちが収集した高品質の音声データを、スタートアップ企業、研究者、音声技術に興味のあるすべての人が利用できるようにすることです。
タトエバ
ダウンロードアドレス:ポータル
このプロジェクトは 2006 年に、言語学習用の文、翻訳、音声の大きなデータベースである tatoeba で始まりました。登録不要であらゆる単語の例文を検索できる、外国語学習者向けの例文集サイト。例文に対応する人間の発音が含まれている場合は、クリックして聞くこともできます。登録ユーザーは文章の追加、翻訳、引き継ぎ、改善、議論が可能です。掲示板で他の登録ユーザーと議論することもできます。掲示板ではすべての言語が平等であり、登録ユーザーは好みの言語で他のユーザーとコミュニケーションをとることができます。
ノイズ データセット
ノイズ-92
ダウンロードアドレス:ポータル(250M)
オーディオパラメータ: 19980Hz、シングルチャンネル、深さ16ビット
mat 形式で保存され、以下のスクリプトで wav 形式に変換できます。すべてのノイズの持続時間は 235 秒、サンプリング レートは 19.98 KHz、16 ビットのアナログ - デジタル コンバータ (A/D)、アンチエイリアシング フィルタ、およびプリエンファシスレベルは得られません。15 種類のノイズが含まれます: ホワイト ノイズ、ピンク ノイズ、音声バブル、工場フロア ノイズ 1、工場フロア ノイズ 2、コックピット ノイズ 1 (190 ノットで走行するバッカニア ジェット)、コックピット ノイズ 2 (450 ノットで走行するバッカニア ジェット)、コックピット ノイズ3 (F-16)、機関室騒音 (駆逐艦)、作戦室背景騒音 (駆逐艦)、軍用車両騒音 (レオパルド)、軍用車両騒音 (M109)、機関銃騒音、車内騒音 (ボルボ 340)、HF チャンネルノイズ
mat形式のオーディオをwavに変換します
mat_file=dir('./*.mat');
sr=19980;
for n=1:length(mat_file)
disp(mat_file(n).name);
load(mat_file(n).name);
name = eval(mat_file(n).name(1:end-4));
% 为了避免写入被截断,需要归一化到(-1,1)
% 方法1
% max_val = max(name);
% min_val = min(name);
% name = ((name-min_val)./(max_val-min_val) - 0.5 ) *2;
% 方法2
name = rescale(name, -1, 1);
audiowrite(strrep(mat_file(n).name,'mat','wav'),name,sr);
end
NOIZEUS データセット
ダウンロード リンク: NOIZEUS: 音声強調アルゴリズムを評価するためのノイズのある音声コーパス(ノイズとクリーンな音声のペア)
異なる SNR での 8 つの異なる現実世界のノイズによって破損された、30 の IEEE センテンス (男性 3 人、女性 3 人の話者によって生成) が含まれています。騒音には、郊外の電車の騒音、雑音、車、展示ホール、レストラン、街路、空港、駅の騒音が含まれます。
要求
ダウンロードアドレス:ポータル(7.4Gb)
オーディオパラメータ: 48 kHz および 16 kHz サンプルレートは、1 つのディレクトリに 16 個のシングルチャンネル WAV ファイルとして提供されます。
16チャンネルの周囲騒音記録データベース
マイク アレイは、複数のマイクを (通常は規則的に) 配置したもので、多くの興味深い信号処理技術を使用できます。たとえば、互いに近接したマイクからのオーディオ信号の相関関係を使用して、アレイに対する音源の空間的位置を特定したり、音が到着する方向に基づいて信号を分離またはブーストしたりすることができます。アレイで。
通常、音響背景雑音を考慮したマイクロフォン アレイの実験には、制御された環境またはシミュレートされた環境が使用されます。このような人為的な設定では、ノイズ源がまばらであることがよくあります。すでに存在する他の現実世界の騒音データベース ( AURORA-2 コーパス、CHiME 背景騒音データ、NOISEX-92 データベースなど) は、最大 2 チャネルという非常に限られた環境多様性しか提供しない傾向があります。
ここで紹介する DEMAND (多様な環境マルチチャネル音響ノイズ データベース) は、さまざまな設定で現実世界の騒音テスト アルゴリズムを使用できるようにする一連の録音を提供します。このリリースでは15 個の録音が提供されます。すべての録音は、マイク間の最小距離 5 cm、最大距離 21.8 cm の 16 チャンネル アレイを使用して行われました。
PNL 100 非音声音
ダウンロード アドレス:ポータル(~10M)
オーディオフォーマット: 20kHz サンプリングレート、モノラル、16 ビット深度
これらの非音声の周囲音は、音声分離システムなどで非音声ノイズを評価するために使用できます。
群衆: N1 ~ N17 機械: N18 ~ N29 警報とサイレン: N30 ~ N43 交通: N44 ~ N46 動物: N47 ~ N55 水: N56 ~ N69 風: N70 ~ N78 ベル: N79 ~ N82 咳: N83 ~ N85 手拍子: N86 いびき: N87 クリック: N88 大笑い: N88-N90 あくび: N91-N92 泣き声: N93 シャワー: N94 歯磨き: N95 足音 : N96-N97 ドアの動き: N98 電話ダイヤル: N99-N100
rnnoise_contributions
RNNoise が提供する寄付データ セットは主にオフィス ノイズです。ダウンロード アドレス: Portal (6.41G)。
ESC-50: 環境音分類データセット
ダウンロードリンク: https://github.com/karolpiczak/ESC-50 (~600MB)
国内ミラー:ワークベンチ - Heywhale.com
オーディオパラメータ: 44.1kHz、シングルチャンネル、深さ16ビット
ESC-50 データセットは、Freesound.orgからの2000 個の環境オーディオ クリップのラベル付きコレクションであり、環境音の分類に適しています。データセットは、5 つのカテゴリに分類された 5 秒間の記録で構成されており、それぞれに 10 のサブカテゴリ (サブカテゴリごとに 40 の例) があります。
- 動物:犬、酉、豚、牛、蛙、猫、鶏、昆虫(飛行)、羊、カラス
- 自然と水の音:雨、海の波、火のパチパチ音、コオロギ、鳥のさえずり、水滴、風、土砂降り、トイレの水流、雷雨
- 人間の音声以外の音: 赤ちゃんの泣き声、くしゃみ、拍手、呼吸、咳、足音、笑い、歯磨き、いびき、飲酒、すすりながら
- 屋内/家庭内の音: ドアをノックする音、マウスのクリック音、キーボードのタイピング音、ドア、木がきしむ音、缶を開ける音、洗濯機、掃除機、時計の目覚まし音、時計のカチカチ音、ガラスが割れる音
- 屋外/都市騒音: ヘリコプター、チェーンソー、サイレン、車のクラクション、エンジン、電車、教会の鐘、飛行機、花火、ハンドソー
# -*- coding:utf-8 -*-
# Author:凌逆战 | Never.Ling
# Date: 2022/8/8
"""
对ESC-50数据集,根据噪声类别分类
"""
import os
import librosa
import pandas as pd
import soundfile
csv_path = "./esc50.csv"
dataset_path = "G:/dataset/noise_dataset/ESC-50"
class_basepath = "G:/dataset/noise_dataset/ESC-50/class"
sr = 16000
trainData = pd.read_csv(csv_path)
for filename, category in zip(trainData["filename"], trainData["category"]):
noise_path = os.path.join(dataset_path, "audio", filename)
class_path = os.path.join(class_basepath, category)
if not os.path.exists(class_path):
os.makedirs(class_path)
new_path = os.path.join(class_path, "ESC50_" + filename)
print("new_path", new_path)
y = librosa.load(noise_path, sr, mono=True)[0]
soundfile.write(new_path, data=y, samplerate=sr)
分类脚本
ESC 環境騒音分類データセット
ダウンロードアドレス:ポータル(26.8GB)
オーディオパラメータ: 44.1kHz、シングルチャンネル、5 秒の長さのクリップ
ESC データセットは、統一された形式で提供される一連の短期環境記録です。すべてのクリップは、プロジェクト project を通じて取得されたパブリック Freesound.org から抽出されます。
データセットは 3 つの部分で構成されます。
- ESC-50 : 2000 個の環境レコードのセット (それぞれ 40 個のクリップの 50 クラス)、
- ESC-10 : 400 の環境記録のセット (10 クラス、それぞれ 40 クリップ) (これは ESC-50 のサブセットであり、概念実証/単純な記録用の標準化された選択肢として初期化するために作成されました)、
- ESC-US: 250k の環境記録 (5 秒間のクリップ) を含むラベルなしのデータセットで、教師なしの事前トレーニングに適しています。
赤ちゃんの泣き声のデータセット
https://github.com/giulbia/baby_cry_detection(310M)
https://github.com/gveres/donateacry-corpus(48.2M)
HKUST Xunfei 赤ちゃんの泣き声認識チャレンジ(810M)
- リンク: Baidu Netdisk 抽出コードを入力してください
- 抽出コード:wh47
MS-SNSD
ダウンロードアドレス:ポータル
オーディオフォーマット: 16kHz、モノラル、16ビット深度
エアコン、空港アナウンス、せせらぎ、コピー機、噛む、隣人、ドアを閉める、タイピング、掃除機
ノイズを消してください
ダウンロードアドレス:ポータル(7.70Gb)
オーディオフォーマット: サンプリングレート 48kHz、2 チャンネル、16 ビット深度
オーディオパラメータ: ストリート、カフェ、車、ホーム、リバーブ、
フリーサウンドデータセット
ダウンロードアドレス:ポータル
STARSS22:Sony-TAu リアル空間サウンドスケープ 2022
ダウンロードアドレス:ポータル
VOICe データセット
ダウンロードアドレス:ポータル(3.23GB)
オーディオフォーマット: 44.1kHz、モノラル、32 ビット (浮動小数点) ビット深度
一般的なサウンドイベント検出のためのドメイン適応手法を開発および評価するための新しいデータセット!
赤ちゃんの泣き声 ガラスの割れる 音 銃声
VOICe は、3 つの異なるサウンド イベントの 1449 の異なるミックスで構成されています。
-
3 つの異なるクラスの音響シーン (「車両」、「屋外」、「屋内」) と混合された 1242 の背景雑音、2 つの SNR 値 (-3、-9 dB) で混合、つまり 207 混合 x 3 音響シーン x 2 SNR = 1242
-
バックグラウンドノイズのない207ミックス。
車内騒音データセット
ダウンロードアドレス:ポータル(~2.47GB)
オーディオパラメータ: 44.1 kHz、16 ビット、2 チャンネル
このオープンソース データセットには、複数の音源からの 5.08 時間の車内騒音が含まれており、7 つのノイズ バーが含まれています。ノイズ源には次のものがあります。
タイヤノイズ エンジンノイズ ラジオ ボーカル
車内音響データセット
ダウンロードアドレス:ポータル VISC データセット SON (1.2GB)
オーディオパラメータ: 44.1kHz、2チャンネル、16ビット深度
使用されるデータセットは、さまざまな車両タイプについて YouTube の運転視点 (PoV) から収集されます。これらは車内で聞こえる音です。運転手も人間の声もありません。8クラス5980音収録。これらの車両は開いたアスファルト道路を走行します。雨天時の未舗装路での車内音の収集は好ましくありません。
これらのデータのファイル形式はwavです。長さが 3 ~ 5 秒、周波数が 48 kHz のサウンドを使用してください。選択される車両タイプは、バス、ミニバス、ピックアップ、スポーツカー、ジープ、トラック、クロスオーバー、セダン (乗用車)です。収集された車内音響 (VIS) データセットのプロパティが表にまとめられています。
バス (バス): 850 サンプル ミニバス (バン): 850 サンプル ピックアップ (小型トラック): 850 サンプル スポーツカー (スポーツカー): 850 サンプル ジープ (ジープ): 850 サンプル トラック (トラック): 850 サンプル クロスオーバー (トランスファーライン) ): 850 サンプル 車 (クラス C – 4K): 850 サンプル 合計: 5980
MAVD トラフィック データセット
ダウンロード アドレス:ポータル(~1.3G)
オーディオパラメータ: 44.1kHz、モノラル、32ビット浮動小数点
MAVD: 都市環境における音声イベント検出用のデータ セット。このバージョンは、道路脇の交通騒音の収集に 焦点を当てているため、MAVD-traffic という名前が付けられています。音声録音に加えて、同期されたビデオ ファイルも含まれています。サウンド イベント アノテーションは、交通音オントロジーに従います。交通音オントロジーは、車両タイプ (例: 車、バス) と車両コンポーネント (例: エンジン、ブレーキ)、およびそれらに関連付けられた一連のアクション (例: アイドリング、加速します)。
データセット-AOB: 都市音イベント分類
ダウンロードアドレス:データセット-AOB: 都市音イベント分類 | Zenodo (~2G)
オーディオパラメータ: サンプリングレート: 22KHz - 44KHz、< 4 秒
データセット Dataset-AOB は、畳み込みニューラル ネットワークを使用して修士論文用に収集され、手動で編集された都市音イベント分類の音声データセットです。
サイレン、犬 で遊ぶ子供たち 、吠える エンジン、 足音、 割れたガラスの 銃声 、地下鉄の電車、 雨と叫び声
CHiME-ホーム
タスクの説明: DCASE 2016 国内オーディオのタグ付け
ダウンロードアドレス:ポータル(3.9GB)
オーディオ形式: オーディオ データは 2 つのサンプル レート (48kHz と 16kHz) で 4 秒のチャンクで提供されます。48kHz データはステレオ、16kHz データはモノラルです。16kHz 録音は、48kHz 録音の右側チャンネルをダウンサンプリングすることによって得られました。
音響環境における主な音源は、大人 2 名と子供 2 名、テレビと電子機器、キッチン家電、人間の活動による足音とノックの音、家の外からの音です[ Christensen2010 ]。オーディオ データは 2 つのサンプル レート (48kHz と 16kHz) で 4 秒のチャンクで提供されます。48kHz データはステレオ、16kHz データはモノラルです。16kHz 録音は、48kHz 録音の右側チャンネルをダウンサンプリングすることによって得られました。各オーディオ ファイルはチャンクに対応します。
利用可能なオーディオ データはすべてシステム開発に使用できますが、評価は、市販のハードウェアの一般的な録音能力に近づけるために、16kHz でサンプリングされたモノラル オーディオ データを使用して実行されます。
アーバンサウンド
ダウンロードアドレス:ポータル(17.9 GB)
オーディオフォーマット: 44.1kHz、2チャンネル、16ビット深度
データセットには、1,302 個のラベル付き音声録音が含まれています。各録音には、10 カテゴリのサウンド イベントの開始時刻と終了時刻がマークされます。各録音には複数のサウンド イベントが含まれる場合がありますが、各ファイルについては 1 つのクラスのイベントのみがマークされます。これらのクラスは、アーバン サウンド分類法に基づいています。
エアコン エアコン 車のクラクション 車のホーン 子供遊び 子供遊び 犬の鳴き声 犬の鳴き声 掘削 掘削 エンジン エンジンアイドリング 銃の射撃ポータブル 削岩機 サイレン サイレン ストリート ミュージック ストリートミュージック
アーバンサウンド8K
ダウンロードアドレス:ポータル(6.60GB)
オーディオフォーマット: 44.1kHz、2チャンネル、16ビット深度
データセットには、10 のカテゴリからの都市音の 8,732 個のラベル付き音の抜粋 (<=4) が含まれています。これらのクラスは、アーバン サウンド分類法に基づいています。
エアコン エアコン 車のクラクション 車のホーン 子供遊び 子供遊び 犬の鳴き声 犬の鳴き声 掘削 掘削 エンジン エンジンアイドリング 銃の射撃ポータブル 削岩機 サイレン サイレン ストリート ミュージック ストリートミュージック
孤立した都市音データベース
ダウンロードアドレス:ポータル(2.3G)
オーディオフォーマット: 44.1kHz、2チャンネル、16ビット深度
データセットには 2 つのフォルダーが含まれています。
- イベント: 顕著と思われる 231 の短いサウンド サンプルで構成され、持続時間は 1 ~ 20 秒で、21 のサウンド カテゴリ (ベル、ホイッスル、車のクラクション、通過する車、ハンマー、犬の吠え声、サイレン、足音、金属ノイズ、声) にグループ化されています。 ..)
- 背景: 音響特性が時間の経過とともに変化しない 162 の長時間サウンド (~1mn30) で構成されます。このカテゴリには、鳥のさえずり、群衆の騒音、雨、校庭で遊ぶ子供たち、絶え間なく続く交通騒音などが含まれます。
音響イベントデータセット
ダウンロードアドレス:ポータル(1.2GB)
アコースティックギター: アコースティックギター 飛行機: 飛行機 拍手: 拍手 bird: 鳥 車: 車 cat: 猫 child: 子供 教会の鐘: 教会の鐘 群衆: 群衆 dog_barking: 犬の吠え声 エンジン: 送信者花火: 花火 footstep: 足音 glass_breaking: ガラス破壊 ハンマー : ヘリコプター をノックオン : ヘリコプター を ノックオン トーン: トーン、トーン ヴァイオリン : ヴァイオリン 水道: 蛇口 ホイッスル : ホイッスル
BBCの音響効果
ダウンロードリンク: BBC Rewind - サウンドエフェクト
データをダウンロードするにはクローラーが必要な場合があります
飛行機、動物、拍手、雰囲気、鐘、鳥、時計、コメディー、群衆、日常生活、破壊、エレクトロニクス、アクティビティ、火災、足音、業界、機械、医療、軍事、自然、スポーツ、おもちゃ、交通、
NAR データセット
ダウンロードアドレス:ポータル(35MB)
複数の実際の家庭環境で録音
キッチン: 食べる、窒息する、カトラリーを入れる、カップに水を入れる、蛇口をひねる、引き出しを開閉する、椅子を移動する、電子レンジを開く、電子レンジを閉じる、電子レンジ、冷蔵庫、トースター オフィス: ドアを閉める、ドアを開ける、鍵をノックする、紙を破る、
ジッパー、(別の)ジッパー
非言語:手拍子、手拍子、舌打ち
音声:1、2、3、4、5、6、7、8、9、10、こんにちは、左、右、回す、移動、停止、ナオ、はい、いや、何?
asr-ノイズ
ダウンロードアドレス:ポータル(4.7GB)
このデータセットはダウンロードできません。何が起こっているのかわかりません
DCASE
データセット、モバイル データセット、オープンセットの違い :
オーディオを同時にキャプチャする 4 つのデバイスで録音します。
主な録音機器には、Soundman OKM II Klassik/studio A3、エレクトレットバイノーラル マイク、および48kHz サンプリング レートと 24 ビット解像度を使用するZoom F8 レコーダーが含まれます。マイクはヘッドセットのように見えるように特別に設計されており、耳に装着します。その結果、録音された音声は、デバイスを装着している人の聴覚系に届く音に非常に似ています。このデバイスはさらにデバイス A と呼ばれます。
他のデバイスは一般的なクライアント デバイスです。デバイス B は Samsung Galaxy S7、デバイス C は iPhone SE、デバイス D は GoPro Hero5 セッションです。すべての同時録音は時間同期されます。
TAU Urban Acoustic Scenes 2019 Development Dataset : 機器 A を使用して録音された素材のみが含まれており、セッション間でバランスが取れた 40 時間の音声が含まれています。データは 12 都市のうち 10 都市からのものです。TAU Urban Acoustic Scenes 2019 評価データセットには、12 都市すべてのデータが含まれています。
TAU Urban Acoustic Scenes 2019 Mobile Development Dataset : デバイス A、B、C で記録された素材が含まれています。これは、機器 A で記録された TAU Urban Acoustic Scenes 2019 データと、機器 B および C で記録されたいくつかの並行音声で構成されます。デバイス A からのデータは、デバイス B および C によって記録されたデータのプロパティと一致するように、単一チャネルにリサンプリングおよび平均化されます。データセットには、合計 46 時間 (40 時間 + 3 時間 + 3 時間) の音声が含まれています。TAU Urban Acoustic Scenes 2019 モバイル評価データセットには、デバイス D からのデータも含まれています。
TAU Urban Acoustic Scenes 2019 Open Set Development Dataset : TAU Urban Acoustic Scenes 2019 とオープン分類問題からのその他の音声サンプルで構成される、デバイス A を使用して録音された素材のみが含まれています。「オープン」データは、TUT Acoustic Scenes 2017 データセットの「ビーチ」クラスと「オフィス」クラス、および 2019 年に記録されたその他の素材で構成されています。データセットには、合計 46 時間 (40 時間 + 6 時間) の音声が含まれています。TAU 都市音響シーン 2019 オープンセット評価データセットには、10 の既知のカテゴリとその他の未知のカテゴリのデータが含まれています。
TUTサウンドイベント2016
ダウンロードリンク:
オーディオパラメータ: 44.1kHz、2チャンネル、24ビット深度
2 つのアコースティック シーンからの 22 の録音が含まれています。
家庭 (屋内)、10 録音、合計 36:16 住宅 (屋外)、12 録音、合計 42:00
TUT 音響シーン 2016
ダウンロードリンク:
オーディオパラメータ: 44.1kHz、2チャンネル、24ビット深度
15 のアコースティック シーンからの 30 秒のオーディオ クリップで構成され、それぞれに 78 のクリップがあり、合計 39 分のオーディオになります。
バス - 市内のバスに乗る(車両) カフェ/レストラン - 小さなカフェ/レストラン(屋内) 車 - 市内を運転または乗客として旅行する(車両) 市内中心部(屋外) 森の小道 森の小道(屋外) 食料品店食料品店 - 中規模の食料品店 (屋内) 自宅 (屋内) 湖畔のビーチ 湖畔のビーチ (屋外) 図書館 図書館 (屋内) 地下鉄の駅 地下鉄の駅 (屋内) オフィス オフィス - 複数人、典型的 平日 (屋内) 住宅地 (屋外) 電車 電車内(移動、車両) 路面電車(移動、車両) 都市公園 都市公園(屋外)
スマートカー 2017 テスト4
タスクの説明: DCASE 2017 スマート カー向けの大規模な弱監視サウンド イベント検出
開発: トレーニング (Psswd トレーニング ファイル: DCASE_2017_training_set)
開発: テスト (Psswd テスト ファイル: DCASE_2017_testing_set)
評価データセット (863MB)のパスワード「DCASE_2017_evaluation_set」
オーディオパラメータ: 44.1kHz、モノラル、16ビット深度
ホーン: - 電車のホーン (441) - エアホーン、トラックのホーン (407) - 車の 警報器 (273) - バックビープ音 (337) - 救急車 (サイレン) (624) - パトカー (サイレン) (2,399) - 消防車、消防車(サイレン) (2,399) - 民間防衛用サイレン (1,506) - 叫び声 (744) 車両音: - 自転車 (2,020) - スケートボード (1,617) - 車 (25,744) - 通過する車 (3,724) - バス (3,745) -トラック (7,090) - オートバイ (3,291) - 電車 (2,301)
TUTレアサウンドイベント2017
ダウンロード アドレス:開発データセット (17.5 GB) | 評価データセット (7.4 GB)
オーディオパラメータ: 44.1kHz、モノラル、16ビット深度
珍しいサウンド イベント (赤ちゃんの泣き声、銃声、ガラスの割れる音など) とバックグラウンド オーディオのミックスを作成するためのソース ファイルと、簡単に生成される一連のミックスとそれらを生成するためのレシピが含まれています。
データセットの「ソース」部分は 2 つのサブセットで構成されます。
-
15 の異なる音響シーンからのバックグラウンド録音
- バス - 市内のバスに乗車(車両) - カフェ/レストラン - 小さなカフェ/レストラン(屋内) - 車 - 市内を運転または乗客として移動(車両) - 市内中心部のダウンタウン(屋外) - 森の小道( -食料 品店 - 中型食料品店 (屋内) - 自宅 (屋内) - 湖畔のビーチ (屋外) - 図書館 (屋内) - 地下鉄駅 (屋内) - オフィス - 多くの人、通常の勤務日 (屋内) - 住宅地 (屋外) - 電車(旅行、乗り物) - 路面電車(旅行)、乗り物) - 都市公園 都市公園(屋外 屋外)
-
3 つのクラスのターゲットからの稀な音声イベントの録音と、発生時間の注釈、
-
相互検証設定を提供するメタファイルのセット: バックグラウンド イベント レコード リストとターゲット イベント レコード リストは、トレーニング サブセットとテスト サブセット (「devtrain」および「devtest」と呼ばれ、評価データセットではなく開発データセットとして提供されることを示します) に分割されます。別途発売)。
混合セットは 2 つのサブセット (トレーニングとテスト) で構成され、それぞれに約 1500 の混合が含まれます (各サブセットのターゲット クラスごとに約 500、混合の半分にはターゲット クラス イベントが含まれません)。
TUT 音響シーン 2017
ダウンロードリンク:
- 開発データセット (10GB) には音響シーンごとに 312 個のクリップが含まれており、合計 52 分のオーディオになります。
- 検証データセット (3.6 GB) にはサウンド シーンごとに 108 セグメントがあり、合計 18 分のオーディオになります。
オーディオパラメータ: 44.1kHz、2チャンネル、24ビット深度
TUT Acoustic Scenes 2017 の開発データセットは、15 の音響シーンからの 10 秒のオーディオ クリップで構成されています。
- バス - 市内のバスに乗車(車両) - カフェ/レストラン - 小さなカフェ/レストラン(屋内) - 車 - 市内を運転または乗客として移動(車両) - 市内中心部のダウンタウン(屋外) - 森の小道( -食料 品店 - 中型食料品店 (屋内) - 自宅 (屋内) - 湖畔のビーチ (屋外) - 図書館 (屋内) - 地下鉄駅 (屋内) - オフィス - 多くの人、通常の勤務日 (屋内) - 住宅地 (屋外) - 電車(旅行、乗り物) - 路面電車(旅行)、乗り物) - 都市公園 都市公園(屋外 屋外)
TUTサウンドイベント2017
ダウンロードリンク:
オーディオパラメータ: 44.1kHz、2チャンネル、24ビット深度
これらの録音はさまざまなストリートで撮影されました。録音場所ごとに、3 ~ 5 分間の録音がキャプチャされます。録音に使用した機器には、バイノーラルSoundman OKM II Klassik/studio A3エレクトレット インイヤー マイクと、44.1 kHz サンプリング レートおよび 24 ビット解像度を使用する Roland Edirol R-09 波形レコーダーが含まれます。
道路(ブレーキのきしむ音、車、子供、大型車、話している人、歩いている人)を含む
純粋なノイズはなく、ノイズの開始点と終了点のみが存在します。
TUT 都市音響シーン 2018
ダウンロードリンク:
- 開発データセット (21.4 GB)
- 評価データセット (8.9GB)
- リーダーボード データセット (3.0 GB)
オーディオパラメータ: 48kHz、2チャンネル、深さ24ビット
TUT Urban Acoustic Scenes 2018 のリーダーボード データセットは、10 の音響シーンからの 10 秒のオーディオ クリップで構成されています。
空港 - 空港 屋内ショッピングセンター - ショッピングモール地下鉄 駅 - 地下鉄駅 歩行者専用道路 - 街路歩行者 専用広場 - 公共広場の 道路交通 - 街路交通トラムに 乗る - バスでトラム - 地下鉄でバス旅行 - メトロ シティパーク - 公園
TAU 都市音響シーン 2019
ダウンロードリンク:
- 開発データセット (35.6 GB)
- 評価データセット (17.9GB)
- リーダーボード データセット (3.0 GB)
オーディオパラメータ: 48kHz、2チャンネル、深さ24ビット
10 のアコースティック シーンからの 10 秒のオーディオ クリップが含まれており、各シーンには 1440 個のクリップ (240 分のオーディオ) が含まれています。データセットには合計 40 時間の音声が含まれています。
- 空港 - 空港 - 屋内ショッピング センター - ショッピング モール - 地下鉄駅 - 地下鉄駅 - 歩行者専用道路 - 街路歩行者 - 公共広場 - 公共広場 - 街路交通 - 街路交通 -トラムで の移動 - トラム - バスでの移動 - バス - 地下鉄での移動 - 地下鉄 - 市立公園- 公園
TAU 都市音響シーン 2020 モバイル
ダウンロードリンク:
オーディオパラメータ: 48kHz、2チャンネル、深さ24ビット
TUT 都市音響シーン 2020 モバイル開発データセットは、10 の音響シーンからの 10 秒のオーディオ クリップで構成されています
空港 - 空港 屋内ショッピングセンター - ショッピングモール地下鉄 駅 - 地下鉄駅 歩行者専用道路 - 街路歩行者 専用広場 - 公共広場の 道路交通 - 街路交通トラムに 乗る - バスでトラム - 地下鉄でバス旅行 - メトロ シティパーク - 公園
TAU 都市音響シーン 2020 3クラス
ダウンロードリンク:
オーディオパラメータ: 48kHz、2チャンネル、深さ24ビット
TAU Urban Acoustic Scenes 2020 3Class データセットは、10 の音響シーンからの 10 秒のオーディオ クリップで構成され、次の 3 つのカテゴリにグループ化されています。
- 屋内シーン - *屋内*: 空港: 空港 屋内モール: 屋内ショッピング モール 地下鉄駅: 地下鉄駅 - 屋外シーン - *屋外*: 歩行者専用道路: 歩行者専用道路 公共広場: 公共広場 中 交通道路: 中程度の交通量のある道路 都市公園: 都市公園 - 交通関連シーン - *交通*: バスで移動: バスで 移動 トラムで移動: トラムで移動 地下鉄で移動: 地下鉄で移動
TAU アーバンオーディオビジュアルシーン 2021
ダウンロードリンク:
オーディオパラメータ:
空港 - 空港 屋内ショッピングセンター - ショッピングモール地下鉄 駅 - 地下鉄駅 歩行者専用道路 - 街路歩行者 専用広場 - 公共広場の 道路交通 - 街路交通トラムに 乗る - トラムバスに乗る - 地下鉄で バス旅行 - メトロ シティパーク - 公園
TAU 都市音響シーン 2021 モバイル
ダウンロードアドレス:評価用データセット (8.8GB)
オーディオパラメータ: 44.1kHz、モノラル、24 ビット深度
空港 - 空港 屋内ショッピングセンター - ショッピングモール地下鉄 駅 - 地下鉄駅 歩行者専用道路 - 街路歩行者 専用広場 - 公共広場の 道路交通 - 街路交通トラムに 乗る - トラムバスに乗る - 地下鉄でバス旅行 - メトロ シティパーク - 公園
TAU 都市音響シーン 2022 モバイル
ダウンロードリンク:
オーディオパラメータ: 44.1kHz、モノラル、24 ビット深度
空港 - 空港 屋内ショッピングセンター - ショッピングモール地下鉄 駅 - 地下鉄駅 歩行者専用道路 - 街路歩行者 専用広場 - 公共広場の 道路交通 - 街路交通トラム に乗る - バスの トラム- バス 地下鉄 - メトロ シティパーク - 公園
包括的なデータセット
合成データセットは、音声とノイズの両方を含むデータセットです。
拒否
アドレス:ポータル(11G)
音楽、音声、騒音のコーパス
FSDうるさい18k
ダウンロードアドレス:ポータル (9.5 GB)
FSDnoisy18k は、サウンド イベント分類におけるラベル ノイズの調査を容易にするために設計されたオーディオ データセットです。これには、手動でラベル付けされた少量のデータと現実世界のノイズを含む大量のデータを含む、20 のサウンド カテゴリにわたる 42.5 時間のオーディオが含まれています。
DS_10283_2791
音声強調アルゴリズムと TTS モデルをトレーニングするためのノイズのある音声データベース
クリーンでノイズの多い並列音声データベース。このデータベースは、48kHz で実行される音声強調手法をトレーニングおよびテストするように設計されています。より詳細な説明は、データベースに関連する論文に記載されています。28 人の話者のデータセットについては、C. Valentini-Botinhao、X. Wang、S.Takaki、および J.yamagishi、「ディープリカレント ニューラル ネットワークを使用したノイズ耐性の高いテキスト読み上げ合成システムの音声強化」の詳細を参照してください。 "、Proc. Interspeech 2016。56 人の話者データセットの場合: C. Valentini-Botinhao、X. Wang、S.Takaki、および J.yamagishi、" ノイズ耐性のあるテキスト変換のための RNN ベースの音声強化方法に関する研究Speech "、Proc. SSW 2016 で。騒々しい音声の作成に使用されるノイズの一部は、http://parole.loria.fr/DEMAND/ で入手できる要求データベースから取得されます。音声データベースは、CSTR VCTK コーパスからのものです。ここから入手可能 入手可能場所: https://doi.org/10.7488/ds/1994 このデータセットの作成に使用された音声およびせせらぎノイズ ファイルは、ここから入手可能です: http://homepages.inf.ed.ac.uk/cvbotinh/せ/ノイズ/。
CSTRはもう怖くない
ダウンロードアドレス:ポータル(1.342G)
包括的なデータセットがすべてです
DNS-Challenge:https://github.com/microsoft/DNS-Challenge/tree/master/datasets
音声強調アルゴリズムと TTS モデルをトレーニングするためのノイズのある音声データベース
OpenSLR:openslr.org
- 12: LibriSpeech ASR コーパス
- 17:音楽、音声、ノイズのコーパス
- 18: THCHS-30 清華大学が公開した無料中国語音声コーパス
- 28: OpenSLR ルームのインパルス応答とノイズのデータベース
- 38: Surf Technology の無料中国語コーパス。855 人の話者と 102,600 の発話を含む。
- 60: LibriTTS コーパス、オリジナルの LibriSpeech コーパスからの大規模な英語音声コーパス
- 62:北京大唐技術有限公司の北京語音声コーパスaidatatang_200zhには、600 人の話者からの 200 時間分の音声データが含まれています。各文の文字起こし精度は 98% 以上
- 68: MAGICDATAマジック データ テクノロジー株式会社のコーパスである中国語普通話読み上げコーパスには、中国本土の北京語の母語話者 1,080 人からの 755 時間のスクリプト読み上げ音声データが含まれています。文の転写精度は 98% 以上です。
参考
【知識】音声データセットの配置
【github】オープンスピーチコーパス