Qwen 方言语音识别 Skill - 极简版

基于通义千问 Qwen3-ASR-0.6B 模型的语音转文字服务，支持 22 种中文方言和 30 种语言识别。

功能特性

🎤 支持 22 种中文方言识别
🌐 支持 30 种国际语言
💻 CPU 端运行，无需 GPU
🔍 自动语言检测
⚡ 低延迟，高准确率
📦 极简版：仅包含 0.6B 模型，无强制对齐功能

🗣️ 支持的中文方言

安徽话、东北话、福建话、甘肃话、贵州话、河北话、河南话、湖北话、湖南话、江西话、宁夏话、山东话、陕西话、山西话、四川话、天津话、云南话、浙江话、粤语（香港口音）、粤语（广东口音）、吴语、闽南语。

🚀 快速开始

安装

# 克隆项目
git clone <repository-url>
cd qwen-asr-skill

# 安装依赖
npm install
pip install -r requirements.txt

# 启动服务
npm start

🔧 使用方式

安装并启用后，直接在 OpenClaw 中发送语音消息即可，系统会自动识别方言并转为文字。

📡 API 接口

POST /transcribe

音频转文字接口

请求参数：

audio：音频文件或 base64 编码的音频数据（必需）
language：指定语言/方言（可选，如："四川话"、"粤语"等）
timestamps：是否返回时间戳（可选，默认 false）

响应示例：

{
  "success": true,
  "data": {
    "text": "识别结果文本",
    "language": "Sichuan",
    "confidence": 0.98,
    "duration": 1.23
  }
}

📊 性能指标

推理速度：实时音频的 1.5-2 倍速（8 核 CPU）
内存占用：6-8GB 运行时
支持音频时长：最长 5 分钟
方言识别 WER：<16%（平均）

🔍 极简版特点

与完整版相比，极简版（Minimal）的特点：

特性	极简版	完整版
模型大小	~6GB	~6GB + ~2GB
强制对齐	❌	✅
时间戳	❌	✅
RAM 占用	6-8GB	6-10GB
适用场景	基础 ASR	需要时间戳的场景

🔒 隐私保护

所有语音处理在本地完成
模型权重在首次运行时自动从 Hugging Face 下载（约 6GB - 仅 0.6B 模型）
处理完的音频文件会自动删除，不会存储
不收集任何用户语音数据和识别内容

🤝 贡献

欢迎提交 Issue 和 Pull Request 来改进这个 Skill！

📄 许可证

Apache-2.0

📡 API 接口

POST /transcribe

音频转文字接口

请求参数：

audio：音频文件或 base64 编码的音频数据（必需）

language：指定语言/方言（可选，如："四川话"、"粤语"等）

timestamps：是否返回时间戳（可选，默认 false）

响应示例：

{ "success": true, "data": { "text": "识别结果文本", "language": "Sichuan", "confidence": 0.98, "duration": 1.23 } }

特性

极简版

完整版

模型大小

~6GB

~6GB + ~2GB

强制对齐

❌

✅

时间戳

❌

✅

RAM 占用

6-8GB

6-10GB

适用场景

基础 ASR

需要时间戳的场景

Qwen Asr Skill

Qwen 方言语音识别 Skill - 极简版

功能特性

🗣️ 支持的中文方言

🚀 快速开始

安装

🔧 使用方式

📡 API 接口

POST /transcribe

📊 性能指标

🔍 极简版特点

🔒 隐私保护

🤝 贡献

📄 许可证

Download

Skill Info

Qwen Asr Skill

Qwen 方言语音识别 Skill - 极简版

功能特性

🗣️ 支持的中文方言

🚀 快速开始

安装

🔧 使用方式

📡 API 接口

POST /transcribe

📊 性能指标

🔍 极简版特点

🔒 隐私保护

🤝 贡献

📄 许可证

Download

Skill Info