© 加速工具
jiasugongju#
outlook.com

Sherpa-onnx是一个基于最新Kaldi技术构建的本地语音处理工具,提供了一系列离线语音处理功能,支持多种操作系统和编程语言,能够在本地高效运行复杂的语音任务,包括语音识别、语音合成、说话人识别和语音活动检测。

Sherpa-onnx实现了以下语音处理能力:

• 语音识别(ASR):包括流式和非流式处理

• 语音合成(TTS)

• 说话人分离(Speaker diarization)

• 说话人识别(Speaker identification)

• 说话人验证(Speaker verification)

• 口语语言识别

• 音频标注

• 关键词检测

• 声音活动检测(VAD)

• 语音增强

Sherpa-onnx支持多种硬件架构和操作系统:

架构:x86、x86_64、32位ARM、64位ARM(arm64/aarch64)、RISC-V(riscv64)、RK NPU

操作系统:Linux、macOS、Windows、openKylin、Android、WearOS、iOS、HarmonyOS、NodeJS、WebAssembly

Sherpa-onnx提供丰富的API接口,支持以下编程语言:

1、C++

2、C

3、Python

4、JavaScript

5、Java

6、C#

7、Kotlin

8、Swift

9、Go

10、Dart

11、Rust

12、Pascal

你不需要安装任何软件,通过浏览器就可以在线体验Sherpa-onnx的功能。

Sherpa-onnx提供了多种预训练模型供用户直接使用:

语音识别模型

流式Zipformer双语(中英)模型

流式Zipformer中文模型

流式Zipformer英语模型

非流式Whisper模型

非流式Paraformer模型

语音合成模型

英语TTS模型

德语TTS模型

其他模型

声音活动检测模型

关键词检测模型

音频标注模型

说话人识别模型

口语语言识别模型

Sherpa-onnx已被应用于多个项目中:

• 实现多平台离线语音交互系统

• 结合FastAPI构建ASR和TTS服务

• 在C#中使用流式ASR开发带图形界面的应用

• 基于Node.js提供RESTful语音识别API

• 开发模块化、全程离线的智能音箱系统

• 为ESP32设备控制服务器提供后端支持

• 纯Python编写的家庭自动化控制系统