小米AI创新再获突破，ICASSP 2026成舞台！_模型_音频

在人工智能的浩瀚海洋中，小米再次乘风破浪，宣布其在AI领域的最新创新成果成功入选全球音频领域最具影响力的学术会议——ICASSP 2026。此次盛会将于今年5月在西班牙巴塞罗那举行，标志着小米在音频与多模态技术方面的重大突破。

小米的创新成果涵盖音频理解、音乐生成评估、联邦学习泛化、跨模态预训练以及视频音效生成等多个前沿领域，展现了其在AI技术上的深厚积累和全面布局。尤其是在音频理解方面，小米团队提出的ACAVCaps数据集通过自动化标注框架，成功突破了传统数据集的局限性。利用多专家模型并行提取声音事件、音乐特征及说话人属性等元数据，并结合大语言模型的逻辑整合能力，这一创新使得数据集包含约470万条音频-文本对，既在规模上领先，又实现了从特征识别到语义理解的飞跃。

研究团队透露，ACAVCaps数据集将很快开源，为音频AI研究提供高质量基础设施，推动行业进步。在联邦学习领域，小米与高校合作开发的FedDCG框架首次实现了类别与域的联合优化，避免了决策边界的混淆，并通过类特定协作训练机制提升了泛化能力。在Office-Home数据集上的实验显示，该模型在ImageNet-R测试中准确率达到70.3%，较现有最优方法提升近3个百分点，尤其在低采样率场景下依旧表现优异。这一成果为跨域图像分类和隐私保护模型的部署提供了新的范式。

音乐生成评估方面，小米的双编码器架构FUSEMOS通过融合CLAP与MERT模型的互补优势，显著提升了评估精度。该架构采用晚期融合策略，保留模态独立性，引入排名感知复合损失函数，增强了对人类偏好顺序的理解。在Musiceval基准测试中，FUSEMOS的均方误差和排序相关性指标均优于现有方法，为文本到音乐生成系统的发展提供了可靠评估工具。

在跨模态预训练方面，小米的GLAP模型实现了语音、音乐和环境音的统一对齐，支持50种语言的零样本关键词识别。该模型在语音检索任务中分别在英文LibriSpeech和中文AISHELL-2数据集上达到了94%和99%的召回率，充分展现了其在声音检索领域的领先水平。

视频音效生成领域，小米的MeanFlow模型通过平均速度场建模实现了一步生成，推理速度提升了2至500倍，同时保持了音质的领先。其创新引入的标量重缩放机制解决了失真问题，8秒音频生成仅需0.056秒。这种跨任务泛化能力使得文本生成音效无需额外微调，为影视配音、短视频创作等场景提供了高效解决方案。

在多模态检索领域，小米的统一学习框架通过整合图像、文本检索与意图理解任务，实现了跨模态语义对齐。该框架支持多语言输入，在XTD10等数据集上的召回率超越主流模型1.1至2.7个百分点，同时降低系统内存占用48.4%，为小米手机等设备提供了高效检索解决方案。

总之，小米在AI领域的持续创新不仅推动了技术的进步，更为音频与多模态技术的发展注入了新活力。随着ICASSP 2026的临近，期待小米带来更多的惊喜与启示！返回搜狐，查看更多