2026年2月16日 IT频道最新文章 IT频道最新文章

麒纪科技申请基于多模态大语言模型的体育视频解说生成专利,解决多模态信息整合不足问题

金融界2025年8月18日消息,国家知识产权局信息显示,北京麒纪科技有限公司申请一项名为“基于多模态大语言模型的体育视频解说生成方法及系统”的专利,公开号CN120495957A,申请日期为2025年05月。

专利摘要显示,本申请基于多模态大语言模型的体育视频解说生成方法及系统,包括:获取多模态的数据集,数据集包括体育视频,以及与体育视频对应的音频与解说文本;构建多模态大语言模型,将体育视频、音频与解说文本进行编码,以使对应的视频帧、音频波形和元数据投射到共享的嵌入空间,确定多模态嵌入向量;设置多模态聚类记忆单元,对多模态嵌入向量进行分组,通过对比学习和信息熵正则化优化模态间的特征对齐;基于检索增强上下文学习机制,通过稀疏正则化距离度量检索历史实例作为当前输入多模态嵌入向量的参考输入;将当前多模态嵌入向量与参考输入联合输入到多模态大语言模型,获得体育视频解说。

来源:金融界返回搜狐,查看更多

平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
阅读 ()