在人工智能的浩瀚海洋中,小米再次乘风破浪,宣布其在AI领域的最新创新成果成功入选全球音频领域最具影响力的学术会议——ICASSP 2026。此次盛会将于今年5月在西班牙巴塞罗那举行,标志着小米在音频与多模态技术方面的重大突破。
小米的创新成果涵盖音频理解、音乐生成评估、联邦学习泛化、跨模态预训练以及视频音效生成等多个前沿领域,展现了其在AI技术上的深厚积累和全面布局。尤其是在音频理解方面,小米团队提出的ACAVCaps数据集通过自动化标注框架,成功突破了传统数据集的局限性。利用多专家模型并行提取声音事件、音乐特征及说话人属性等元数据,并结合大语言模型的逻辑整合能力,这一创新使得数据集包含约470万条音频-文本对,既在规模上领先,又实现了从特征识别到语义理解的飞跃。
研究团队透露,ACAVCaps数据集将很快开源,为音频AI研究提供高质量基础设施,推动行业进步。在联邦学习领域,小米与高校合作开发的FedDCG框架首次实现了类别与域的联合优化,避免了决策边界的混淆,并通过类特定协作训练机制提升了泛化能力。在Office-Home数据集上的实验显示,该模型在ImageNet-R测试中准确率达到70.3%,较现有最优方法提升近3个百分点,尤其在低采样率场景下依旧表现优异。这一成果为跨域图像分类和隐私保护模型的部署提供了新的范式。
音乐生成评估方面,小米的双编码器架构FUSEMOS通过融合CLAP与MERT模型的互补优势,显著提升了评估精度。该架构采用晚期融合策略,保留模态独立性,引入排名感知复合损失函数,增强了对人类偏好顺序的理解。在Musiceval基准测试中,FUSEMOS的均方误差和排序相关性指标均优于现有方法,为文本到音乐生成系统的发展提供了可靠评估工具。
在跨模态预训练方面,小米的GLAP模型实现了语音、音乐和环境音的统一对齐,支持50种语言的零样本关键词识别。该模型在语音检索任务中分别在英文LibriSpeech和中文AISHELL-2数据集上达到了94%和99%的召回率,充分展现了其在声音检索领域的领先水平。
视频音效生成领域,小米的MeanFlow模型通过平均速度场建模实现了一步生成,推理速度提升了2至500倍,同时保持了音质的领先。其创新引入的标量重缩放机制解决了失真问题,8秒音频生成仅需0.056秒。这种跨任务泛化能力使得文本生成音效无需额外微调,为影视配音、短视频创作等场景提供了高效解决方案。
在多模态检索领域,小米的统一学习框架通过整合图像、文本检索与意图理解任务,实现了跨模态语义对齐。该框架支持多语言输入,在XTD10等数据集上的召回率超越主流模型1.1至2.7个百分点,同时降低系统内存占用48.4%,为小米手机等设备提供了高效检索解决方案。
总之,小米在AI领域的持续创新不仅推动了技术的进步,更为音频与多模态技术的发展注入了新活力。随着ICASSP 2026的临近,期待小米带来更多的惊喜与启示!返回搜狐,查看更多