语音大模型简介
背景
语音大模型(speech large language model, SpeechLLMs)亦有称之为语音对话模型(spoken dialogue models)
技术路径
在大模型时代之前,一个人机语音对话系统涉及多个模块,包括:语音识别(ASR)、语言理解(NLU)、对话管理、语言生成、语音合成等。
在大模型时代,根据是否由一个大模型直接理解和生成语音,分为级联和端到端两种技术路径:
级联:语音识别、LLM、语音合成三部分级联构成。优点是:构建成本低、各模块成熟且相对独立;缺点是:效果上限相对低、容易出现信息丢失问题、延迟较大。代表性系统有:AudioGPT。
端到端:一个模型实现语音的输入、输出。优点是:系统简单、能力强、延迟低;缺点是:训练成本高,依赖大量的训练数据。代表性模型:GPT-4o
典型的语音大模型
语音大模型一般由三个模块组成:
语音编码器(Speech Tokenizer):典型的Tokenizer有在连续空间表示语音的Speech Encoder,和在离散空间表示语音的RVQ结构的Neural Codec Encoder。
大模型模型(Large Language Model):支持任意类型的LLM。
语音合成器(Token to Speech Synthesizer):如HiFi-GAN。
SpeechGPT
模块组成
模型框架
语音复刻技术
Google OpenVoice:准确的音色克隆、灵活的语音风格控制
技术原理
使用一小段语音复刻声音。
语音识别(STT)
OpenAI Whisper预训练模型,支持多语言转录。
语音合成(TTS)
ChatTTS、FastSpeech2、VITS
参考
Github项目
Awesome Audio-Generation: A curated list for papers, codes and resources related to Text-to-Audio (TTA) Generation
Google openvoice
OpenVoice
OpenVoice Colab