概述

近几年由于AI的迅速发展,语音相关的自然语言处理NLP项目也变多了,新的技术也越来越成熟,其中TTS(语音生成)和ASR(语音识别)是NLP中非常重要的环节。

今天我们介绍一个开源的ASR项目vosk,以及vosk的简单应用方法。

Vosk是开源的语音识别工具包。Vosk支持的事情包括:

1.      支持十九种语言 - 中文,英语,印度英语,德语,法语,西班牙语,葡萄牙语,俄语,土耳其语,越南语,意大利语,荷兰人,加泰罗尼亚语,阿拉伯, 希腊语, 波斯语, 菲律宾语,乌克兰语, 哈萨克语。

2.      移动设备上脱机工作-Raspberry Pi,Android,iOS。

3.      使用简单的 pip3 install vosk 安装。

4.      每种语言的手提式模型只有是50Mb, 但还有更大的服务器模型可用。

5.      提供流媒体API,以提供最佳用户体验(与流行的语音识别python包不同)。

6.      还有用于不同编程语言的包装器-java / csharp / javascript等。

7.      可以快速重新配置词汇以实现最佳准确性。

8.      支持说话人识别。

环境

centos:CentOS release 7.0 (Final)或以上版本

VOSK服务器

vosk服务器的部署非常简单,有发布好的docker镜像可以直接使用。

使用docker启动VOSK服务器,选择中文模型kaldi-cn。

docker run -d -p 2700:2700 alphacep/kaldi-cn:latest

测试

客户端的连接支持多种方式,包括grpc、mqtt、webrtc、websocket等,我们可以通过git上的源代码查找到合适的样例。

下载vosk-server源代码

git clone https://github.com/alphacep/vosk-server

cd vosk-server/websocket

./test.py test1.wav

注意事项:语音文件test1.wav的格式必须8khz 16bit mono PCM(8000采样率,16位采样精度,单声道,pcm)。

可以在屏幕上看到服务器返回的识别结果,结果是json格式。

{

  "result" : [{

      "conf" : 0.993990,

      "end" : 0.510000,

      "start" : 0.090000,

      "word" : "语音"

    }, {

      "conf" : 0.936422,

      "end" : 1.080000,

      "start" : 0.510000,

      "word" : "测试"

    }, {

      "conf" : 0.821353,

      "end" : 1.950000,

      "start" : 1.350000,

      "word" : "天天"

    }, {

      "conf" : 0.866125,

      "end" : 2.190000,

      "start" : 1.950000,

      "word" : "是"

    }, {

      "conf" : 0.657369,

      "end" : 2.400000,

      "start" : 2.190000,

      "word" : "二"

    }, {

      "conf" : 0.657369,

      "end" : 2.610000,

      "start" : 2.400000,

      "word" : "零"

    }, {

      "conf" : 0.651791,

      "end" : 2.820000,

      "start" : 2.610000,

      "word" : "二"

    }, {

      "conf" : 0.994422,

      "end" : 3.180000,

      "start" : 2.820000,

      "word" : "一年"

    }, {

      "conf" : 1.000000,

      "end" : 3.600000,

      "start" : 3.180000,

      "word" : "八月"

    }, {

      "conf" : 0.985209,

      "end" : 3.930000,

      "start" : 3.600000,

      "word" : "二十"

    }, {

      "conf" : 0.985209,

      "end" : 4.410000,

      "start" : 3.930000,

      "word" : "五号"

    }],

  "text" : "语音 测试 天天 是 二 零 二 一年 八月 二十 五号"

}

总结

从vosk中文库的识别结果看,还有不少的问题存在,包括识别率,分词,分段等等,和目前市面上的商业ASR引擎还是有差距的。

当然,vosk的识别库模型也支持自定义和优化,有兴趣的同学可以去官网深入的了解一下。

vosk官网:https://alphacephei.com

OK,今天我们对vosk的介绍到此结束。


空空如常

求真得真

开源ASR服务器vosk概述近几年由于AI的迅速发展,语音相关的自然语言处理NLP项目也变多了,新的技术也越来越成熟,其中TTS(语音生成)和ASR(语音识别)是NLP中非常重要的环节。今天我们介绍一个开源的ASR项目vosk,以及vosk的简单应用方法。Vosk是开源的语音识别工具包。Vosk支持的事情包括:1.支持十九种语言 - 中文,英语,印度英语,德语,法语,西班牙语,葡萄牙语,俄语,土耳其语,越南语,意大利语,荷兰人,加泰罗尼亚语,阿拉伯, 希腊语, 波斯语, 菲律宾语,乌克兰语, 哈萨克语。2.移动设备上脱机工作-Raspberry Pi,Android,iOS。3.使用简单的 pip3 install vosk 安装。4.每种语言的手提式模型只有是50Mb, 但还有更大的服务器模型可用。5.提供流媒体API,以提供最佳用户体验(与流行的语音识别python包不同)。6.还有用于不同编程语言的包装器-java / csharp / javascript等。7.可以快速重新配置词汇以实现最佳准确性。8.支持说话人识别。
环境centos:CentOS release 7.0 (Final)或以上版本
VOSK服务器vosk服务器的部署非常简单,有发布好的docker镜像可以直接使用。使用docker启动VOSK服务器,选择中文模型kaldi-cn。docker run -d -p 2700:2700 alphacep/kaldi-cn:latest
测试客户端的连接支持多种方式,包括grpc、mqtt、webrtc、websocket等,我们可以通过git上的源代码查找到合适的样例。下载vosk-server源代码git clone https://github.com/alphacep/vosk-servercd vosk-server/websocket./test.py test1.wav
注意事项:语音文件test1.wav的格式必须8khz 16bit mono PCM(8000采样率,16位采样精度,单声道,pcm)。
可以在屏幕上看到服务器返回的识别结果,结果是json格式。{  "result" : [{      "conf" : 0.993990,      "end" : 0.510000,      "start" : 0.090000,      "word" : "语音"    }, {      "conf" : 0.936422,      "end" : 1.080000,      "start" : 0.510000,      "word" : "测试"    }, {      "conf" : 0.821353,      "end" : 1.950000,      "start" : 1.350000,      "word" : "天天"    }, {      "conf" : 0.866125,      "end" : 2.190000,      "start" : 1.950000,      "word" : "是"    }, {      "conf" : 0.657369,      "end" : 2.400000,      "start" : 2.190000,      "word" : "二"    }, {      "conf" : 0.657369,      "end" : 2.610000,      "start" : 2.400000,      "word" : "零"    }, {      "conf" : 0.651791,      "end" : 2.820000,      "start" : 2.610000,      "word" : "二"    }, {      "conf" : 0.994422,      "end" : 3.180000,      "start" : 2.820000,      "word" : "一年"    }, {      "conf" : 1.000000,      "end" : 3.600000,      "start" : 3.180000,      "word" : "八月"    }, {      "conf" : 0.985209,      "end" : 3.930000,      "start" : 3.600000,      "word" : "二十"    }, {      "conf" : 0.985209,      "end" : 4.410000,      "start" : 3.930000,      "word" : "五号"    }],  "text" : "语音 测试 天天 是 二 零 二 一年 八月 二十 五号"}
总结从vosk中文库的识别结果看,还有不少的问题存在,包括识别率,分词,分段等等,和目前市面上的商业ASR引擎还是有差距的。当然,vosk的识别库模型也支持自定义和优化,有兴趣的同学可以去官网深入的了解一下。vosk官网:https://alphacephei.comOK,今天我们对vosk的介绍到此结束。
空空如常求真得真

最新文章

  1. .Net语言 APP开发平台——Smobiler学习日志:如何快速实现快递信息流的效果
  2. ASP模拟POST请求异步提交数据的方法
  3. compilation与编译
  4. !对c++类的理解
  5. singleton注意
  6. C#中集合汇总
  7. 《Linux内核设计的艺术》学习笔记(二)INT 0x13中断
  8. 如何设置table中<tr>和<td>的高度
  9. Log4J入门教程(二) 参数讲解
  10. springboot+maven快速构建项目
  11. Android 4.0 新增的显示数据集的桌面控件
  12. javaScript基础概念小知识点集
  13. vue webpack打包
  14. git在工作中的用法总结-使用篇
  15. spark算子之DataFrame和DataSet
  16. uip.h 笔记
  17. 机器学习之利用KNN近邻算法预测数据
  18. 【Linux】less命令
  19. 改变label中的某字体颜色
  20. 关于AJAX与JSON的杂记

热门文章

  1. [编译] 9、在Linux下搭建 nordic 最新基于 zephyr 的开发烧写环境
  2. QZHWTEST2021.5.23分析
  3. Lab: 2FA bypass using a brute-force attack:暴力破解双重验证靶场复盘(困难级别)
  4. Java小题,通过JNI调用本地C++共享库中的对应方法实现杨辉三角的绘制
  5. minor gc和Major GC,Full GC的触发条件
  6. WPF - 简单的UI框架 - 仪表盘
  7. 1、Task的优势
  8. 【spring 注解驱动开发】spring事务处理原理
  9. JDBC中级篇——批处理和PreparedStatement对有sql缓冲区的数据库的友好,测试
  10. Struts2之文件上传与下载