语音大模型简介

背景

语音大模型（speech large language model, SpeechLLMs）亦有称之为语音对话模型（spoken dialogue models）

技术路径

在大模型时代之前，一个人机语音对话系统涉及多个模块，包括：语音识别（ASR）、语言理解（NLU）、对话管理、语言生成、语音合成等。
在大模型时代，根据是否由一个大模型直接理解和生成语音，分为级联和端到端两种技术路径：
级联：语音识别、LLM、语音合成三部分级联构成。优点是：构建成本低、各模块成熟且相对独立；缺点是：效果上限相对低、容易出现信息丢失问题、延迟较大。代表性系统有：AudioGPT。
端到端：一个模型实现语音的输入、输出。优点是：系统简单、能力强、延迟低；缺点是：训练成本高，依赖大量的训练数据。代表性模型：GPT-4o

典型的语音大模型

语音大模型一般由三个模块组成：
语音编码器（Speech Tokenizer）：典型的Tokenizer有在连续空间表示语音的Speech Encoder，和在离散空间表示语音的RVQ结构的Neural Codec Encoder。
大模型模型（Large Language Model）：支持任意类型的LLM。
语音合成器（Token to Speech Synthesizer）：如HiFi-GAN。