最近在做语音识别、字幕扒词相关的工作,遇到了一段录音(https://download.csdn.net/download/u014220286/12169183,各位有兴趣的可以下载下来试试),音质什么的和其他处理过的无二异,也是普通话,照常理说应该能识别出来,可为了类似这样的语音丢了工作机会(前一次没重视人工速录交了,后来又遇到了,琢磨了好长时间解决了,过了交稿时间,产生信任危机了,没有机会合作了。)记录下这次的解决过程,希望给你有需要的人帮助。
  首先用ffmpeg查看该音频,发现是32是浮点数,立体声,转成16K单声道的,没有解决,后来想到是不是因为噪声的缘故,做了噪声消除后效果依旧;甚至怀疑到了和声音内容有关(两次音频都是和法律相关的),以前也做过庭审的例子,拿出来用ffmpeg查看音频信息,摸索半天发现可能是声道的问题。
  找到了问题可能的点,于是在强大的音频处理软件audacity中进行了尝试,具体步骤如下:
  在audacity中导入音频,在左侧面板中下拉三角的菜单中选择“分离立体声”,分离好后“禁用”一个声道,然后在菜单中选择“导出”,导出音频,导出的音频就可以识别了。
  虽然没有尝试用程序解决,但有了方法,又不太耗时,总算解决了一个难点,下次不至于为此类问题失去工作机会了。
  解决前讯飞的识别结果:
   处理后的识别结果:
 
 
  

  HTWCore下载:

  链接: https://pan.baidu.com/s/1awuPov3PXG-AHcZS2YeZRQ 提取码: gavk

  或者加QQ群:414750884

最新文章

  1. POJ 2226二分图最大匹配
  2. jQuery静态方法isFunction,isArray,isWindow,isNumeric使用和源码分析
  3. 【SharePoint学习笔记】第2章 SharePoint Windows PowerShell 指南
  4. ASP.NET保存信息总结(Application、Session、Cookie、ViewState和Cache等) ZT
  5. webpack配置sass模块的加载
  6. SecureCRT配色
  7. 打包时Xcode报:此证书的签发者无效Missing iOS Distribution signing identity
  8. URAL1900 Brainwashing Device(dp)
  9. HDOJ2003求绝对值
  10. Hadoop HDFS概念学习系列之hdfs里的文件下载闲谈(二十六)
  11. UIAlertView、UIActionSheet兼容iOS8
  12. iOS开发--in house发布和安装(ipa重新签名)
  13. 飘逸的python - zlib压缩存到数据库
  14. 【Linux学习三】Linux系统目录架构
  15. winform窗体嵌套HTML页面,开发出炫彩桌面程序
  16. Mysql对用户的操作
  17. [转帖]cmd批处理常用符号详解
  18. SpringMVC+MyBatis+Druid使用MySQL8.0.11版本
  19. 即时通信 选择UDP还是TCP协议
  20. JQuery的可见性选择器

热门文章

  1. Ubuntu18.04安装mysql(AWS云)
  2. 接口测试(http 和 rpc)
  3. 小白月赛22 G : 仓库地址
  4. 09 : 构造方法 & 代码块
  5. Sql Server2008忘记sa登陆密码
  6. JavaScript 15 Ajax异步登陆
  7. Ajax基础原理与应用
  8. k8s service的四种类型
  9. JavaScript实现常见的数据结构
  10. 获取url参数(jq 扩展包)