音视频转文字技能,使用 Whisper 进行语音识别。支持多种音视频格式,可输出纯文本、SRT/VTT 字幕或 JSON 格式。适用于会议记录、视频字幕生成、采访整理、播客转录等场景。
本技能使用 OpenAI Whisper 模型将音频/视频文件转换为文字。支持自动语言检测和多种输出格式。
pip install openai-whisper ffmpeg-python
确保系统已安装 ffmpeg:
# Ubuntu/Debian
sudo apt-get install ffmpeg
# macOS
brew install ffmpeg
# Windows
# 从 https://ffmpeg.org/download.html 下载
python scripts/transcribe.py <输入文件> [输出文件] [选项]
# 转录 MP4 视频,输出文本
python scripts/transcribe.py meeting.mp4
# 转录音频,输出 SRT 字幕
python scripts/transcribe.py podcast.mp3 podcast.srt --output-format srt
# 指定中文和较小模型(更快)
python scripts/transcribe.py interview.wav --model tiny --language zh
# 输出带时间戳的 JSON
python scripts/transcribe.py video.mp4 result.json --output-format json
| 选项 | 说明 | 默认值 |
|---|---|---|
--model | 模型大小:tiny, base, small, medium, large | base |
--language | 语言代码:zh, en, ja 等 | 自动检测 |
--output-format | 输出格式:txt, srt, vtt, json | txt |
--device | 运行设备:cpu, cuda | cpu |
--keep-audio | 保留临时音频文件 | false |
| 模型 | 大小 | 速度 | 精度 | 适用场景 |
|---|---|---|---|---|
| tiny | 39M | 最快 | 一般 | 快速测试、短音频 |
| base | 74M | 快 | 良好 | 日常使用 |
| small | 244M | 中等 | 较好 | 正式场合 |
| medium | 769M | 慢 | 很好 | 高精度需求 |
| large | 1550M | 最慢 | 最佳 | 专业转录 |
这是转录的完整文本内容,适合阅读和编辑。
1
00:00:01,000 --> 00:00:04,000
这是第一句字幕。
2
00:00:04,500 --> 00:00:07,000
这是第二句字幕。
WEBVTT
00:00:01.000 --> 00:00:04.000
这是第一句字幕。
00:00:04.500 --> 00:00:07.000
这是第二句字幕。
包含分段、时间戳、置信度等完整信息,适合程序处理。
音频: MP3, WAV, FLAC, OGG, M4A, AAC
视频: MP4, AVI, MOV, MKV, WEBM, FLV
--device cudascripts/transcribe.py - 主转录脚本ZIP package — ready to use