Sherpa-onnx是一个基于最新Kaldi技术构建的本地语音处理工具,提供了一系列离线语音处理功能,支持多种操作系统和编程语言,能够在本地高效运行复杂的语音任务,包括语音识别、语音合成、说话人识别和语音活动检测。
Sherpa-onnx实现了以下语音处理能力:
• 语音识别(ASR):包括流式和非流式处理
• 语音合成(TTS)
• 说话人分离(Speaker diarization)
• 说话人识别(Speaker identification)
• 说话人验证(Speaker verification)
• 口语语言识别
• 音频标注
• 关键词检测
• 声音活动检测(VAD)
• 语音增强
Sherpa-onnx支持多种硬件架构和操作系统:
架构:x86、x86_64、32位ARM、64位ARM(arm64/aarch64)、RISC-V(riscv64)、RK NPU
操作系统:Linux、macOS、Windows、openKylin、Android、WearOS、iOS、HarmonyOS、NodeJS、WebAssembly
Sherpa-onnx提供丰富的API接口,支持以下编程语言:
1、C++
2、C
3、Python
4、JavaScript
5、Java
6、C#
7、Kotlin
8、Swift
9、Go
10、Dart
11、Rust
12、Pascal
你不需要安装任何软件,通过浏览器就可以在线体验Sherpa-onnx的功能。
Sherpa-onnx提供了多种预训练模型供用户直接使用:
语音识别模型
流式Zipformer双语(中英)模型
流式Zipformer中文模型
流式Zipformer英语模型
非流式Whisper模型
非流式Paraformer模型
语音合成模型
英语TTS模型
德语TTS模型
其他模型
声音活动检测模型
关键词检测模型
音频标注模型
说话人识别模型
口语语言识别模型
Sherpa-onnx已被应用于多个项目中:
• 实现多平台离线语音交互系统
• 结合FastAPI构建ASR和TTS服务
• 在C#中使用流式ASR开发带图形界面的应用
• 基于Node.js提供RESTful语音识别API
• 开发模块化、全程离线的智能音箱系统
• 为ESP32设备控制服务器提供后端支持
• 纯Python编写的家庭自动化控制系统