Qwen3-TTS – 阿里通义开源的系列语音生成模型

智能 PRO 稿源：AI工具集 2026-01-26 02:53

Qwen3-TTS是什么

Qwen3-TTS是Qwen开源的系列语音生成模型，具备强大的音色克隆、创造和语音控制能力。模型基于创新的Qwen3-TTS-Tokenizer-12Hz多码本语音编码器，实现高效语音压缩与高保真还原。模型采用Dual-Track双轨建模，支持低延迟流式生成，首包音频仅需等待一个字符。模型覆盖10种主流语言（中文、英文、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语、意大利语）及多种方言，具备智能文本理解能力，可自适应调整语气、节奏和情感。Qwen3-TTS 多码本全系列模型均已开源，包含1.7B和0.6B两种尺寸能满足不同性能与效率需求，为开发者和用户提供全面的语音生成功能。

Qwen3-TTS的主要功能

音色克隆：模型能通过少量参考音频克隆出特定说话人的音色，实现高度相似的语音合成。
音色创造：支持通过自然语言描述生成定制化的音色形象，用户可自由定义声学属性、人设和背景信息，创造出独特的音色。
语音控制：支持用户通过指令灵活调控音色、情感、韵律等多维声学属性，实现精准的语音表达。
多语言支持：模型覆盖10种主流语言（如中文、英文、日语等）及多种方言，满足全球化应用需求。
低延迟流式生成：基于创新的Dual-Track双轨建模，实现极速双向流式生成，首包音频等待时间仅需一个字符，端到端合成延迟低至97ms。
上下文理解：模型具备强大的文本语义理解能力，可根据输入文本自动调整语气、节奏和情感，适应不同场景。
高保真还原：依托自研的Qwen3-TTS-Tokenizer-12Hz，完整保留副语言信息和声学环境特征，实现高效、高保真的语音还原。

Qwen3-TTS的技术原理

Qwen3-TTS-Tokenizer-12Hz：基于多码本语音编码器，能对语音信号进行高效压缩和高维语义建模。编码器完整保留副语言信息（如语调、节奏、情感）和声学环境特征，通过轻量级的非DiT（Discrete Inverse Transform）架构实现高速、高保真的语音还原。
Dual-Track双轨建模：结合流式（Streaming）和非流式（Non-streaming）生成方式，单模型同时支持两种模式。实现极致的低延迟流式生成，最快可在输入单字后立即输出音频首包，端到端合成延迟低至97ms，满足实时交互场景的需求。
离散多码本LM架构：模型采用离散多码本语言模型（LM）架构，实现语音全信息端到端建模。避免传统LM+DiT方案中的信息瓶颈和级联误差，显著提升模型的通用性、生成效率和效果上限。
自然语言指令驱动：模型支持自然语言指令驱动的语音生成，用户可以通过简单的文本描述控制音色、情感、韵律等属性。深度融合文本语义理解，自适应调节语气、节奏和情感，实现“所想即所听”的拟人化表达。