Provides high-accuracy speech-to-text conversion supporting 22 Chinese dialects and 30 languages with automatic language detection, running on CPU.
基于通义千问 Qwen3-ASR-0.6B 模型的语音转文字服务,支持 22 种中文方言和 30 种语言识别。
安徽话、东北话、福建话、甘肃话、贵州话、河北话、河南话、湖北话、湖南话、江西话、宁夏话、山东话、陕西话、山西话、四川话、天津话、云南话、浙江话、粤语(香港口音)、粤语(广东口音)、吴语、闽南语。
# 克隆项目
git clone <repository-url>
cd qwen-asr-skill
# 安装依赖
npm install
pip install -r requirements.txt
# 启动服务
npm start
安装并启用后,直接在 OpenClaw 中发送语音消息即可,系统会自动识别方言并转为文字。
音频转文字接口
请求参数:
audio:音频文件或 base64 编码的音频数据(必需)language:指定语言/方言(可选,如:"四川话"、"粤语"等)timestamps:是否返回时间戳(可选,默认 false)响应示例:
{
"success": true,
"data": {
"text": "识别结果文本",
"language": "Sichuan",
"confidence": 0.98,
"duration": 1.23
}
}
与完整版相比,极简版(Minimal)的特点:
| 特性 | 极简版 | 完整版 |
|---|---|---|
| 模型大小 | ~6GB | ~6GB + ~2GB |
| 强制对齐 | ❌ | ✅ |
| 时间戳 | ❌ | ✅ |
| RAM 占用 | 6-8GB | 6-10GB |
| 适用场景 | 基础 ASR | 需要时间戳的场景 |
欢迎提交 Issue 和 Pull Request 来改进这个 Skill!
Apache-2.0
ZIP package — ready to use