ASR大模型与API报价
ASR大模型效果最好的API及报价
1. OpenAI Whisper API
- 效果:多语种、强鲁棒性,支持长音频,准确率高。
- API报价(2024年6月):
- $0.006/分钟(标准模型)
- $0.012/分钟(大模型)
- 官方文档
2. Google Cloud Speech-to-Text
- 效果:多语种、实时识别、支持自定义词汇。
- API报价(2024年6月):
- 标准模型:$1.44/小时
- 视频模型:$2.16/小时
- 官方文档
3. 科大讯飞(iFLYTEK)
- 效果:中文识别准确率高,支持多方言、实时转写。
- API报价(2024年6月):
- 免费额度:每月10小时
- 标准识别:约¥0.16/分钟
- 高级识别:约¥0.32/分钟
- 官方文档
4. 百度语音识别(Baidu ASR)
- 效果:多语种、方言支持,适合中文场景。
- API报价(2024年6月):
- 免费额度:每月50小时
- 标准识别:约¥0.16/分钟
- 高级识别:约¥0.32/分钟
- 官方文档
效果最好的开源ASR大模型
1. Whisper(OpenAI)
- 简介:多语种、强鲁棒性,支持长音频,社区活跃。
- 地址:Whisper GitHub
2. Wav2Vec 2.0(Facebook/Meta)
- 简介:自监督学习,支持多语种,适合大规模语音识别。
- 地址:Wav2Vec 2.0 GitHub
3. FunASR(阿里巴巴)
- 简介:支持中文、英文等多语种,推理速度快,适合工业级应用。
- 地址:FunASR GitHub
4. PaddleSpeech ASR(百度)
- 简介:支持多语种、端到端识别,适合中文和多场景。
- 地址:PaddleSpeech GitHub
5. ESPnet
- 简介:支持ASR、TTS等多任务,模型丰富,社区活跃。
- 地址:ESPnet GitHub
ASR大模型与API报价
https://summerchengh.github.io/tech-blog/2025/06/11/大模型-语音助手-ARS大模型/