一,传统语音识别体系结构

  

二,MFCC特征提取

  MFCC(Mel-frequency cepstral coefficients):梅尔频率倒谱系数。梅尔频率是基于人耳听觉特性提出来的, 它与Hz频率成非线性对应关系。梅尔频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征。主要用于语音数据特征提取和降低运算维度。例如:对于一帧有512维(采样点)数据,经过MFCC后可以提取出最重要的40维(一般而言)数据同时也达到了将维的目的。MFCC一般会经过这么几个步骤:预加重,分帧,加窗,快速傅里叶变换(FFT),梅尔滤波器组,离散余弦变换(DCT)。

  其中最重要的就是FFT和梅尔滤波器组,这两个进行了主要的降维操作。

 

提取MFCC特征的过程:

1.先对语音进行预加重、分帧和加窗;

2.对每一个短时分析窗,通过FFT得到对应的频谱;

3.将上面的频谱通过Mel滤波器组得到Mel频谱;

4.在Mel频谱上面进行倒谱分析(取对数,做逆变换,实际逆变换一般是通过DCT离散余弦变换来实现,取DCT后的第2个到第13个系数作为MFCC系数),获得Mel频率倒谱系数MFCC,这个MFCC就是这帧语音的特征。

接下来,语音就可以通过一系列的倒谱向量来描述了,每个向量就是每帧的MFCC特征向量。

最新文章

  1. javascript 全局对象--w3school
  2. Eclipse,到了说再见的时候了——Android Studio最全解析
  3. EF异常:“System.InvalidOperationException”类型的未经处理的异常在 mscorlib.dll 中发生
  4. POJ 1094 Sorting It All Out 拓扑排序 难度:0
  5. html中调用silverlight中的方法
  6. URAL 2048 History 蔡勒公式
  7. #include <assert.h>
  8. Qt 5.2.0 和 VS 2012集成
  9. CentOS 6.X启动流程
  10. C语言 变量的作用域和生命周期(转)
  11. eclipse集成lombok
  12. 苹果电脑利用curl下载数据集
  13. 初始化后,composer安装
  14. Lucas卢卡斯定理
  15. LaTeX :font size 修改字体大小的几种方式
  16. MongoDB的基本shell操作(三)
  17. tomcat启动报错:注释指定的bean类.与现有的冲突.相同的名称和类
  18. 前端技术俗语js
  19. 解决Hue/hiveserver2报错:java.io.IOException: Job status not available
  20. 黑苹果Yosemite 10.10.1懒人版完美安装及简单驱动设置

热门文章

  1. WEB应用打成jar包全记录
  2. Python3.6安装及引入Requests库
  3. Luogu P4705 玩游戏
  4. Usaco 2019 Jan Platinum
  5. 20145236《网络攻防》Exp5 MSF基础应用
  6. 在 Server 2008 企业版下, 安装 IIS 7 后,勾选好 请求筛选模块了。安装完毕后,"请求筛选"却不显示!
  7. JEECG平台权限设计
  8. WebSocket原理与实践(四)--生成数据帧
  9. 【ZOJ 3200】Police and Thief
  10. 【Codeforces 1132D】Stressful Training