2025年12月12日 IT频道最新文章 IT频道最新文章

港科大DreamOmni2开源:多模态AI生图编辑再升级,**AI图像生成**技术新突破

近日,香港科技大学贾佳亚教授团队开源了其最新研发的多模态AI图像生成与编辑模型DreamOmni2,引发了AI图像处理领域的广泛关注。这款模型在多模态图像编辑能力上实现了显著提升,为创作者提供了更强大的工具,也预示着AI在图像处理领域的新发展趋势。

DreamOmni2:多模态编辑的新标杆

随着谷歌NanoBanana、字节Seedream4.0等模型的出现,AI图像编辑领域已经取得了长足的进步。这些模型在OOTD穿搭生成、文字渲染等应用中展现了强大的能力。然而,现有模型在处理复杂指令和抽象概念时仍面临挑战。DreamOmni2的推出,正是为了解决这些痛点。该模型基于FLUX-Kontext架构训练,不仅保留了原有的指令编辑和文生图能力,还创新性地增加了多参考图生成编辑功能,极大地提升了模型的灵活性和创意空间。

DreamOmni2在实际测试中展现出卓越的性能。例如,在背景替换、风格迁移等任务中,DreamOmni2的表现均优于当前最先进的开源模型,甚至在某些方面超越了NanoBanana。在处理复杂指令时,DreamOmni2能更准确地完成编辑任务,并保留图像的自然性和细节。例如,将一张图片中的夹克替换为另一张图片中的衣服时,DreamOmni2不仅准确完成了替换,还自然保留了人物特征。这些优异表现的背后,是贾佳亚团队在数据构建、框架设计和训练策略上的创新,包括三阶段式数据构建范式、针对性修改的模型框架以及VLM和生成模型联合训练的机制。这些技术创新使DreamOmni2在多模态指令编辑与生成任务中达到了新的水平。

技术创新与应用前景

DreamOmni2的成功,离不开其在数据构建、框架设计和训练策略上的创新。三阶段式数据构建范式解决了多模态训练中抽象概念稀缺和缺乏参考图像条件的问题。对模型框架的针对性修改,有效缓解了复制粘贴和像素混淆现象。VLM和生成模型联合训练的机制,使模型能更好地理解复杂用户指令。通过LoRA方法分别训练编辑与生成模块,实现了编辑与生成功能的无缝融合。

多模态生成能力是DreamOmni2的另一大亮点。例如,模型能将一张图片中的徽标印在另一张图片的物体上,并自然放置在桌面上,光影效果处理得当。更令人印象深刻的是,根据手绘草图生成相同姿态图片的任务中,DreamOmni2能准确捕捉草图中的姿态信息,将其转化为自然的人物动作。

开源协同与未来展望

DreamOmni2开源两周以来,在GitHub上已获得1.6k的Star量,受到开源社区的广泛认可。YouTube上也出现了大量介绍和使用经验分享的视频,创作者们对其在抽象概念理解方面的能力给予了高度评价。随着AI技术的不断发展,我们有理由相信,像DreamOmni2这样的模型,将会在图像编辑、内容创作等领域发挥越来越重要的作用。AI图像生成技术正在不断成熟,未来将会有更广阔的应用前景。

你认为,多模态****AI在图像编辑领域的下一个突破点会是什么?

返回搜狐,查看更多

平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
作者声明:本文包含人工智能生成内容
阅读 ()