Qwen3-TTS语音生成模型全家桶开源，支持多语言与音色克隆_评估_用户

2026年1月22日，Qwen公司宣布其Qwen3-TTS语音生成模型全家桶正式开源，提供1.7B和0.6B两种尺寸选择，前者以卓越性能著称，后者则在性能与效率之间取得平衡。Qwen3-TTS系列模型涵盖音色克隆、音色创造、超高质量拟人化语音生成等多项强大功能，旨在为开发者和用户提供全面的语音生成解决方案。

Qwen3-TTS采用了先进的Qwen3-TTS-Tokenizer-12Hz多码本语音编码器，能够高效压缩语音信号，并具备强大的表征能力，完整保留副语言信息与声学环境特征。此外，模型采用轻量级非DiT架构，实现高速高保真的语音还原，满足实时交互的需求。

在生成速度方面，Qwen3-TTS的Dual-Track双轨建模架构允许其在输入单个字符后即可快速输出音频首包，延迟低至97毫秒，极大提升了用户体验。该模型支持中文、英文、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语、意大利语等10种主流语言及多种方言音色，满足全球化应用的需求。

Qwen3-TTS在上下文理解能力上也表现突出，能够根据用户指令和文本语义自适应调整语气、节奏与情感表达，极大地增强了语音生成的灵活性与表现力。

在音色创造与控制方面，Qwen3-TTS的表现也相当优异。评估数据显示，Qwen3-TTS-VoiceDesign在音色创造任务中超越了多款闭源模型，展现出卓越的指令遵循能力与生成表现力。在音色控制任务中，Qwen3-TTS-Instruct表现出色，保持了音色的风格控制能力，且在长语音生成方面的表现同样令人满意。

Qwen-TTS-Tokenizer在语音重构评估中同样表现不俗，其在多个关键指标上达到SOTA水平，特别是在感知语音质量评估和说话人相似度上，均显著超越同类产品，展示了其近乎无损的说话人信息保留能力。

目前，Qwen3-TTS模型已在Github上开源，并可通过QwenAPI进行体验。此次开源将为开发者和研究者提供更多创新与应用的可能性，推动语音生成技术的进一步发展与应用。返回搜狐，查看更多