ASR大模型与API报价

ASR大模型效果最好的API及报价

1. OpenAI Whisper API

  • 效果:多语种、强鲁棒性,支持长音频,准确率高。
  • API报价(2024年6月):
    • $0.006/分钟(标准模型)
    • $0.012/分钟(大模型)
  • 官方文档

2. Google Cloud Speech-to-Text

  • 效果:多语种、实时识别、支持自定义词汇。
  • API报价(2024年6月):
    • 标准模型:$1.44/小时
    • 视频模型:$2.16/小时
  • 官方文档

3. 科大讯飞(iFLYTEK)

  • 效果:中文识别准确率高,支持多方言、实时转写。
  • API报价(2024年6月):
    • 免费额度:每月10小时
    • 标准识别:约¥0.16/分钟
    • 高级识别:约¥0.32/分钟
  • 官方文档

4. 百度语音识别(Baidu ASR)

  • 效果:多语种、方言支持,适合中文场景。
  • API报价(2024年6月):
    • 免费额度:每月50小时
    • 标准识别:约¥0.16/分钟
    • 高级识别:约¥0.32/分钟
  • 官方文档

效果最好的开源ASR大模型

1. Whisper(OpenAI)

  • 简介:多语种、强鲁棒性,支持长音频,社区活跃。
  • 地址Whisper GitHub

2. Wav2Vec 2.0(Facebook/Meta)

  • 简介:自监督学习,支持多语种,适合大规模语音识别。
  • 地址Wav2Vec 2.0 GitHub

3. FunASR(阿里巴巴)

  • 简介:支持中文、英文等多语种,推理速度快,适合工业级应用。
  • 地址FunASR GitHub

4. PaddleSpeech ASR(百度)

  • 简介:支持多语种、端到端识别,适合中文和多场景。
  • 地址PaddleSpeech GitHub

5. ESPnet

  • 简介:支持ASR、TTS等多任务,模型丰富,社区活跃。
  • 地址ESPnet GitHub

ASR大模型与API报价
https://summerchengh.github.io/tech-blog/2025/06/11/大模型-语音助手-ARS大模型/
Author
Your Name
Posted on
June 11, 2025
Licensed under