深度学习进行音频分类的端到端示例和解释

发布时间：2021-03-24 16:11:52 所属栏目：传媒来源：互联网

导读：许多合适的数据集可以用于不同类型的声音。这些数据集包含大量音频样本，以及每个样本的类标签，根据你试图解决的问题来识别声音的类型。这些类标签通常可以从音频样本文件名的某些部分或文件所在的子文件夹名中获得。另外，类标签在单独的元数据文件中指定

许多合适的数据集可以用于不同类型的声音。这些数据集包含大量音频样本，以及每个样本的类标签，根据你试图解决的问题来识别声音的类型。

这些类标签通常可以从音频样本文件名的某些部分或文件所在的子文件夹名中获得。另外，类标签在单独的元数据文件中指定，通常为TXT、JSON或CSV格式。

演示-对普通城市声音进行分类

对于我们的演示，我们将使用Urban Sound 8K数据集，该数据集包含从日常城市生活中录制的普通声音的语料库。这些声音来自于10个分类，如工程噪音、狗叫声和汽笛声。每个声音样本都标有它所属的类。

下载数据集后，我们看到它由两部分组成:

“Audio”文件夹中的音频文件:它有10个子文件夹，命名为“fold1”到“fold10”。每个子文件夹包含许多。wav的音频样本。例如“fold1/103074 - 7 - 1 - 0. - wav”

“Metadata”文件夹中的元数据:它有一个文件“UrbanSound8K”。它包含关于数据集中每个音频样本的信息，如文件名、类标签、“fold”子文件夹位置等。类标签是10个类中的每个类从0到9的数字类ID。如。数字0表示空调，1表示汽车喇叭，以此类推。

一般音频的长度约为4秒。下面是其中一个例子:

（编辑：阜阳站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!