FunASR 语音转录
本地音频转录工具,使用阿里 FunASR 模型进行语音识别。支持中文、英文等多种语言,无需 API 费用,完全本地运行。适用于音频文件转写(.wav, .ogg, .mp3 等)、会议记录、语音笔记整理等场景。
77 downloads
Free
Reviewed
FunASR 语音转录
本地、免费、高效的语音识别工具,基于阿里巴巴 FunASR 模型。
快速开始
# 1. 安装 FunASR
bash ~/.openclaw/workspace/skills/funasr-transcribe/scripts/install.sh
# 2. 转录音频
bash ~/.openclaw/workspace/skills/funasr-transcribe/scripts/transcribe.sh /path/to/audio.ogg
安装 FunASR
首次使用需要安装 FunASR 环境(虚拟环境 + 依赖):
bash ~/.openclaw/workspace/skills/funasr-transcribe/scripts/install.sh
安装脚本会:
- 创建 Python 虚拟环境
~/.openclaw/workspace/funasr_env - 安装 FunASR、torch、torchaudio、modelscope 等依赖
- 安装完成后,首次转录会自动下载模型文件
安装时间:约 5-10 分钟(取决于网络速度)
系统要求:
- Python 3.7+
- 约 4GB 磁盘空间(虚拟环境 + 模型)
- 推荐 8GB+ 内存
转录音频
安装完成后,转录音频:
bash ~/.openclaw/workspace/skills/funasr-transcribe/scripts/transcribe.sh /path/to/audio.ogg
支持的格式:.wav, .ogg, .mp3, .flac, .m4a 等
输出:
- 同目录下生成
<audio_filename>.txt - 包含转录文本(带标点)
性能:
- CPU 推理:rtf 约 0.05-0.2(1 秒音频约需 0.05-0.2 秒)
- 首次转录需下载模型(约 1-2GB),后续直接使用缓存
技术细节
FunASR 使用以下模型组合:
- ASR 模型:
damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch(中文优化) - VAD 模型:
damo/speech_fsmn_vad_zh-cn-16k-common-pytorch(语音活动检测) - 标点模型:
damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch(标点恢复)
语言支持:
- 中文(普通话 + 方言)
- 英文
- 中英混合
常见问题
Q: 首次转录很慢? A: 首次运行会自动下载模型文件(约 1-2GB),后续转录会快很多。
Q: 可以用 GPU 吗?
A: 可以。编辑 scripts/transcribe.py,将 device="cpu" 改为 device="cuda:0",并安装对应的 CUDA 版本依赖。
Q: 转录准确率如何? A: FunASR 在中文场景下表现优异,通常优于 OpenAI Whisper。建议测试后评估效果。
Download
ZIP package — ready to use
Skill Info
- Creator
- limboinf
- Downloads
- 77
- Published
- Mar 15, 2026
- Updated
- Mar 16, 2026