评论

「AI 教母」李飞飞空间智能首个产品亮相!一张图生成一个 3D 游戏世界,这次真不是 PPT

今天凌晨,李飞飞空间智能首个产品惊艳亮相。

开局一张图,它就能生成一个 3D 视频游戏场景。虽说现在有不少 AI 都能把照片转化为 3D 模型,但 World Labs 带来的不只是建模,而是一个真正可交互、可编辑的活体世界。

除了原始输入的图片,所有内容都是通过 AI 生成。

World Labs 在博客中说道:

大多数生成式 AI 工具都制作图像或视频等 2D 内容。相反,以 3D 形式生成可以提高控制和一致性。这将改变我们制作电影、游戏、模拟器和物理世界的其他数字表现形式的方式。

实际上,当前市场不乏 3D 生成模型,但通常会出现许多问题。比如初创公司 Decart 的 Minecraft 模拟器 Oasis,要么画面不够清晰,要么场景布局经常混乱。

相比之下,World Labs 却创造出了一个稳定、真实且符合物理规则的 3D 世界。

一个活的世界,比一千张死的图片更有价值。

一张图生成一个 3D 游戏世界?李飞飞空间智能首秀

开局一张图,结局竟是一个世界?一起来看看 World Labs 产品生成的 3D 游戏世界。

使用鼠标或键盘 W/A/S/D 自由穿行,然后用鼠标单击并拖动来环顾四周:

体验地址:https://www.worldlabs.ai/blog

场景生成好后,你就成了一个虚拟摄影师,在浏览器里实时操控相机,想拍什么角度就拍什么角度,如同专业摄影。

还能模拟浅景深,不过,只有距离相机一定距离的物体才能清晰对焦:

推拉镜头也没问题。

World Labs 的核心突破在于,他们没有止步于像素级的表面呈现,而是直指 3D 场景生成的本质优势:

恒久的现实:创造出来的 3D 世界是稳定的,不会消失或者偷偷改变。

实时控制:生成场景后,想去哪去哪,甚至能凑近看花朵的每个细节。

真实的物理规则:生成的世界遵循现实世界的物理法则,没有漂浮的物体,没有穿墙的 bug,就像现实世界一样自然

World Labs 还表示,通过深度贴图技术,他们成功让每个像素都有了真实的空间距离感。而图片中每个像素的颜色,都是由它和摄像头的距离来决定的。

不仅如此,World Labs 还给场景注入了灵魂——添加各种互动特效,打造动画效果,让整个世界活起来。

来都来了,脑洞大开的 World Labs 还能把梵高、霍珀这些大师的名画还原成可以探索的 3D 世界。不得不说,绝美。

而且原画里没有的东西,它都能「脑补」出来,而且出奇地合理。

联动 Midjourney,让创作者玩转 3D 新世界

说到创作过程,3D 生成的世界还能和其他 AI 工具完美配合,这意味着创作者可以用自己熟悉的工具,创造出全新的体验。

比如说,World Labs 可以先使用文本到图像模型生成图像,从而从文本创建世界。不同的模型有自己的风格,而这些独特的风格都能被保留下来。

来看个具体的例子。

World Labs 团队基于同一提示词,让不同的 AI 画了四个版本的青少年卧室。

A vibrant cartoon-style teenager's bedroom with a bed covered in colorful blankets, a cluttered desk with a computer, posters on the walls, and scattered sports gear. A guitar leans against the wall, and a cozy, patterned rug is in the center. Light from a window adds a warm, youthful vibe to the room.

一间充满活力的卡通风格青少年卧室,床上铺着五颜六色的毯子,杂乱的书桌上放着一台电脑,墙上贴着海报,运动装备散落。一把吉他靠在墙上,中间是一块舒适的图案地毯。窗外的光线为房间增添了温暖、年轻的氛围。

已经有一些创作者通过与 World Labs 达成合作,提前用上了。比如,Eric Solorio 就展示了怎么用它来设计人物动作和控制镜头。

而 Brittani Natali 则把 World Labs 的技术和 Midjourney、Runway、Suno、ElevenLabs 等工具组合起来,设计丰富的镜头运动,并创作出富有情感张力的短片。

不过,World Labs 也坦言:

这些结果是我们生成 3D 世界的第一次早期预览。我们正在努力提高生成世界的大小和保真度,并尝试让用户与它们交互的新方式。

另外,想试试吗?现在可以去申请候补名单了。

附上地址:

https://forms.gle/tkfW7yMqMsCXWw4F7

并且,World Labs 现在也在招人,总共开放应用 AI 研究工程师、业务运营、数据工程师、模型优化工程师、产品设计师等 8 类岗位。

感兴趣可以去看看:

https://jobs.ashbyhq.com/worldlabs

值得注意的是,博客里提到页面上所有的图片均使用 FLUX 1.1 [pro]、Ideogram 或 Midjourney 生成,堪称巧妙联动。

李飞飞本人也第一时间在 X 平台站台宣传:

非常兴奋地向你展示我们团队 @theworldlabs 的最新成果!无论你如何构思这个概念,用语言来形容通过照片或句子生成的 3D 场景的互动感受都是相当有挑战性的。希望你能喜欢这篇博客!🤩❤️‍🔥

硬刚 Sora!李飞飞为什么说 2D 已死,3D 当立?

深入探讨 World Labs 的技术,就不得不回到这家公司的起点。

被誉为「AI 教母」的李飞飞曾任 Google Cloud AI 负责人。今年 9 月份,在成功融资 2.3 亿美元后,她正式官宣创办 AI 初创公司 ——World Labs。

当时,李飞飞发文称,将与其他三位联合创始人 Justin Johnson、Christoph Lassner、Ben Mildenhall,以及一支世界级图像技术团队共同创办实验室,致力于解决这个大自然花费五亿年才解决的超级难题。

关注 AI 第一新媒体,率先获取 AI 前沿资讯和洞察

World Labs 也宣称明年将推出首款构建能够理解 3D 世界并与之交互的 AI 模型产品,公司称其为「大世界模型」。

据称目标用户是艺术家、设计师、开发人员和工程师,以及游戏公司和电影公司。

关于空间智能,World Labs 的官网是这样描述的:

「人类智能有许多方面,其中之一是语言智能,它使我们能够通过语言进行交流和与他人联系。但更为基础的或许是空间智能,它让我们能够理解和与周围世界互动。

空间智能还能帮助我们创造,将脑海中的画面带入现实世界...... 要超越当今模型的能力,我们需要具备空间智能的 AI,它能够在三维空间和时间中对世界进行建模,并对物体、场所和交互进行推理。」

在 World Labs 正式成立后,李飞飞在接受 a16z 采访时强调,空间智能是视觉智能的核心。相比仅限于一维的语言模型,空间智能作为理解和创造三维世界的基础,对 AI 的发展至关重要。

未来,空间智能将帮助我们将这些体验提升到 3D 级别。不仅仅是图像或剪辑,而是一个完全模拟但又充满活力和互动的 3D 世界。

这种技术可能用于游戏,但用途远不止于此,比如虚拟摄影等各种应用场景,甚至有数百万种可能的应用。

现在发布的项目也印证了她的说法。

今天凌晨,英伟达 AI 智能体项目负责人 Jim Fan (同时也是李飞飞的前学生)发文表示祝贺:

GenAI 正在创建越来越高维的人类体验快照。Stable Diffusion 是一个 2D 快照。

Sora 是一个带有时间维度的 2D 快照。现在,World Labs 带来了一个 3D 且完全沉浸式的快照。空间智能得以优雅地呈现,非常出色。

插个冷知识,在 Sora 迟迟未能落地之际,李飞飞曾在斯坦福大学的一场闭门论坛上公开 diss Sora。

她指出,尽管 OpenAI 的 Sora 模型能够生成视频,但其核心仍是二维,缺乏对三维空间的深入理解。

在她看来,二维是表象,三维是本质,空间智能才是 AI 通向 AGI 的钥匙。

当时,她以 Sora 模型生成的「日本女性走过霓虹闪烁东京街头视频」举例称:

如果你希望算法换个角度,来展现这个女子走过街头的视频,比如把摄像机放在女子背后,Sora 无法做到。

因为这个模型对于三维世界并没有真正的深刻理解。而人类可以在脑海中想象女子背后的情景。

人类可以理解在复杂的环境下如何活动。我们知道如何抓取,如何控制,如何打造工具,如何建造城市。根本而言,空间智能是几何形状,是物体间的关系,是三维空间。

可以说,从 Stable Diffusion 的二维图像,到 Sora 的时间维度视频,再到 World Labs 开创的交互式 3D 世界,AI 不仅要理解世界,更要创造世界。

一张照片是起点,一个真正立体、可交互、富有生命力的虚拟世界是终点,而 World Labs 正在弥合这道鸿沟。返回搜狐,查看更多

责任编辑:

平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
阅读 ()