2026年4月14日 IT频道最新文章 IT频道最新文章

Qwen3-TTS语音生成模型全家桶开源,支持多语言与音色克隆

2026年1月22日,Qwen公司宣布其Qwen3-TTS语音生成模型全家桶正式开源,提供1.7B和0.6B两种尺寸选择,前者以卓越性能著称,后者则在性能与效率之间取得平衡。Qwen3-TTS系列模型涵盖音色克隆、音色创造、超高质量拟人化语音生成等多项强大功能,旨在为开发者和用户提供全面的语音生成解决方案。

Qwen3-TTS采用了先进的Qwen3-TTS-Tokenizer-12Hz多码本语音编码器,能够高效压缩语音信号,并具备强大的表征能力,完整保留副语言信息与声学环境特征。此外,模型采用轻量级非DiT架构,实现高速高保真的语音还原,满足实时交互的需求。

在生成速度方面,Qwen3-TTS的Dual-Track双轨建模架构允许其在输入单个字符后即可快速输出音频首包,延迟低至97毫秒,极大提升了用户体验。该模型支持中文、英文、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语、意大利语等10种主流语言及多种方言音色,满足全球化应用的需求。

Qwen3-TTS在上下文理解能力上也表现突出,能够根据用户指令和文本语义自适应调整语气、节奏与情感表达,极大地增强了语音生成的灵活性与表现力。

在音色创造与控制方面,Qwen3-TTS的表现也相当优异。评估数据显示,Qwen3-TTS-VoiceDesign在音色创造任务中超越了多款闭源模型,展现出卓越的指令遵循能力与生成表现力。在音色控制任务中,Qwen3-TTS-Instruct表现出色,保持了音色的风格控制能力,且在长语音生成方面的表现同样令人满意。

Qwen-TTS-Tokenizer在语音重构评估中同样表现不俗,其在多个关键指标上达到SOTA水平,特别是在感知语音质量评估和说话人相似度上,均显著超越同类产品,展示了其近乎无损的说话人信息保留能力。

目前,Qwen3-TTS模型已在Github上开源,并可通过QwenAPI进行体验。此次开源将为开发者和研究者提供更多创新与应用的可能性,推动语音生成技术的进一步发展与应用。返回搜狐,查看更多

平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
作者声明:本文包含人工智能生成内容
阅读 ()