基础语音识别-食物语音识别baseline(CNN)
MFCC通常有以下之过程:. 数据集来自Eating Sound Collection,数据集中包含20种不同食物的咀嚼声音,赛题任务是给这些声音数据建模,准确分类。类别包括: aloe, ice-cream, ribs, chocolate, cabbage, candied_fruits, soup, jelly, grapes, pizza, gummies, salmon, wings, burger, pickles, carrots, fries, chips, noodles, drinks训练集的大小: 750测试集的大小: 2501 下载和解压数据集2 加载库函数加载深度学习框架3 特征提取以及数据集的建立建立类别标签字典提取梅尔频谱特征获取特征和标签X的特征尺寸是: Y的特征尺寸是: 独热编码把数据集划分为训练集和测试集训练集的大小 750测试集的大小 2504 建立模型搭建CNN网络训练模型5 预测测试集6 结果
用户评论