Sora要彻底取代人类，还差什么？_模型_世界

图片来源@视觉中国

文 | 商隐社，作者 | 浩然

OpenAI在2月16日凌晨发布了文生视频大模型Sora，在科技圈、媒体和朋友圈引起一连串的震惊和感叹。

一时间，OpenAI官网公布的由Sora生成的炸裂般视频在网上广为流传。

利用Sora，只需要输入一段文字提示语，就能得到一段长达60秒的视频，其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动，几可乱真。

网友纷纷惊呼AI要让电影、短视频、游戏等行业变天，更有人夸张地惊呼“现实世界不存在了！”。

Sora生成的视频截图

人类被AI替代似乎又近了一步。

这件事让我们惊叹Sora掀起的新一轮技术变革浪潮，或许不久之后，普通人制作视频的门槛大大降低，复杂的拍摄、剪辑等工作都会被略掉，人们的想象力和创造力成为视频内容竞争力的最核心来源。

于是，“一人公司”和极小规模团队也有机会完成以往投入巨大人力、成本的电影和视频内容。

技术浪潮卷起千堆雪，我们有惊叹和期待，也有被替代和拍碎的担忧。

但这几天我观察到，站在技术制高点上的科学家和很多业内人士讨论最多的还是Sora的“世界模型”问题。

Sora生成视频具有极其逼真的画面和连贯性，有的不仔细看几乎看不出是AI生成的，这并不简单，需要机器懂现实世界的结构、细节、运动足迹、光影变幻等规律，不违反人的认知，之前一些大模型生成让人啼笑皆非的图片，就是明显不符合现实世界事物的运行规律。

所以有人认为Sora懂物理世界，有了“世界模型”的雏形。

AI的世界模型其实可以看作是其心智模型，反映了人工智能系统对自身和外部世界的认知和期望。

拿人类的世界模型来说，“模型”这个词意味着我们了解的所有知识不是以一堆事实的形式储存起来的，而是以一种能够体现世界和它所包含的一切这种结构组织起来的。

我们不会记住关于每件物品的一系列事实，而是在大脑中构建了无数个模型，像“城门楼子”“胯骨轴子”的模型，就不是一回事，各自是什么形状、怎么排布以及不同的部分是如何移动和配合工作的。

而为了认出某样东西，我们会知道它的外观和触感；为了实现目标，我们会了解世界上的事物在与我们互动时的典型表现，比如咬了一口苹果，会有什么样的咬痕。

但很多科学家认为Sora并不懂物理世界，没有“世界模型”。

比如图灵奖得主杨立昆（Yann LeCun）就认为，仅根据prompt生成逼真视频并不能代表一个模型理解了物理世界，生成视频的过程与基于世界模型的因果预测完全不同。

而深度学习框架“Keras”的作者、谷歌人工智能研究员弗朗索瓦·肖莱（François Chollet）认为，像Sora这样的视频生成模型确实嵌入了「物理模型」，但问题是：这个物理模型是否准确？它能否泛化到新的情况，即那些不仅仅是训练数据插值的情形？

Sora生成视频也确实出现了不少瑕疵，比如“蚂蚁巢穴内爬行”的POV镜头，仔细看只有4条腿；“人在跑步机跑步”的视频是反方向；“一只大鸭子走过波士顿的街道”中鸭子把人踩没了。

对此，英伟达高级研究科学家范麟熙（Jim Fan)表示，我们可以从两个角度来解释这个问题：

（1）可能是因为这个模型根本没有掌握物理知识，它仅仅是在无序地拼凑图像像素；

（2）模型确实尝试构建了一个内部的物理引擎，但这个引擎的表现还不尽人意。

业内人士认为，Sora用了“大力出奇迹”的方法，用大量数据、大模型和大量算力，底层采用了游戏、无人驾驶和机器人领域验证的世界模型，构建文生视频模型，达到模拟世界的能力。

但这就像通过大量“读图”学习世界运行的规律，虽然也是合理的，但类比人，仅“睁眼看世界”是学不会牛顿定律等物理学可以演绎的世界规律的。

人类最终不是通过模仿鸟类，而是通过理解空气动力学而发明了飞机。

Sora确实是AI的又一个里程碑时刻，必将大力简化人的劳动，减少人的“工具人”属性，可以用来辅助甚至部分担纲某些工作，但真正替代人或者说颠覆现实似乎还为时尚早。

所以关键或许还是在“世界模型”，那问题来了，我们自己是怎么构建世界模型的？

前段时间读了一本书——计算机科学家与神经科学家杰夫·霍金斯写的《千脑智能》，恰好回答了人类是怎么建立起世界模型的，而他认为AI要真正实现智能，还是得从人的大脑中探寻。

一般来说，复杂动物的大脑会随着时间推移不断进化，在旧部分基础上进化出新部分，从而能操纵越来越复杂的行为。

旧脑部分控制着更原始的行为，比如呼吸、饥饿、反射反应。而新脑部分也就是“新皮质”则创造出更复杂的行为，大多是有智能成分的，比如视觉、语言、音乐、数学、科学和工程。

我们思考问题时，主要也是新皮质在思考。

新皮质虽然展开像桌布那么大，厚度大约2.5毫米，但却有着非常复杂的皮质算法——

它有几十个区域，分别负责视觉、听觉、触觉、语言、计划等，而且各区域通过神经纤维束连接；

1平方毫米的新皮质中就有大约10万个神经元，5亿个神经元之间的连接（称为突触），以及几千米长的轴突和树突；

新皮质中随处可见精确且极其复杂的神经回路。

新皮质中的连接

新皮质的基本单位，也可以称为是“智能单位”是“皮质柱”，大约有15万根皮质柱像乐高积木一样并排堆叠在一起，每个都可以计算任何刺激或感觉（听觉、嗅觉、触觉、味觉和视觉）

它能分析和处理输入信号，无论信号类型如何。因此，每个也可以预测一个输出。这意味着每个瞬间有15万个预测。大脑皮层以连续时间步长预测了数以千计的现实。

我们目光移动时，皮质柱就对它将要看到的东西进行预测；

要拿起东西，皮质柱就会预测每个手指应该有什么感觉；

想做一个动作时，皮质柱也会预测将发生什么。

新皮质能预测最小的刺激物，如杯子把手的质地，而且每根皮质柱，都在进行预测。

但预测是前提是新皮质要知道什么才是准确的。这主要基于过去的经验中进行的学习。

新皮质学习的就是世界模型，这种模型是感官输入、参考系和位置的组合。

感官输入就像是我们喂给机器的海量数据，不过人的输入是通过眼耳鼻舌身，基于两种变化：世界在不断变化，各种风吹草动都是新的输入；人在不断移动，每次移动输入到大脑的信息会完全改变。

新皮质在事件和感觉之间建立联系。此外，它将能学习它产生的动作的效果。这是感知运动学习。

感知运动之中，皮质柱也在一刻不停地预测，预测得到验证时，就意味着大脑中的世界模型是准确的。如果有任何信息输入与新皮质的预测不一致，那就会提醒新皮质，它需要更新这部分世界模型。这是在错误中分析学习。

还有很重要的一点就是，模型一定要有参考系和位置，皮质柱如果要预测下一个输入，也必须知道感官的移动方式。

而人的大脑也有对参考系和位置的感知，比如我们把手放在一个物体上，就能大体知道手相对于物体的大体位置，往上碰可能就是杯口，然后意识里有杯口的形状、触感，往下的一系列结构、细节也有意识。

假如没有参考系和位置的感知，完全不知道相对于物体的位置，就很难预测下一段输入。

数学中我们用x、y和z坐标轴来定义某物在空间中的位置，而地理上用经纬度定义地球表面的位置，大脑也会把类似参考系的东西附着在接触和感知的物体上。

参考系和位置能给大脑带来三点，一是使大脑了解某物的结构，各部分在空间中怎么排列。

二是利用参考系来定义一个物体，大脑便可以一次性操纵整个物体。比如一旦我们了解了一辆汽车，就能想象它从不同的角度看是什么样子，也能辨别出它在某个维度上是否被拉长了。

三是提供了下一步计划和移动的方向。比如拿着手机，想按下手机的电源按钮，大脑知道当前位置和电源按钮的位置，它就可以计算出手指需要怎样从当前位置移到新位置。这种计算需要一个与手机位置相关的参考系。

大脑自带的参考系可能与位置细胞和网格细胞有关，位置细胞能让人知道身在何处，网格细胞就像纸质地图上的行和列，覆盖在所处环境上，两者一起为人所处环境创建一个完整的模型。

大脑不会保存每个事物的图像，而是保存兴趣点。这就像你的脑海中有世界的多重网格。对于大脑来说，世界是一系列记忆（动态）。需要位置来关联位置和记忆，因为它可以让你找到自己的路并移动。

大脑中的连接存储着我们通过经验学习的世界模型。每天我们都会经历新的事物，并通过形成新的突触来为模型添加新的知识片段。

15万根皮质柱每根都是一个完整的系统，它们可能会对同一个动作同时做出成千上万种预测，每根皮质柱的感知都会进行传播，同时接收来自其他皮质柱的预测，最常见的猜测会胜过最不常见的猜测，直到整个网络确定一个答案。有种类似“票选”的机制。

所以依据人脑的原理，作者认为智能系统可以用四个标准来构成：

一是机器需要不断学习。机器需要从错误中学习以更新其世界模型。

二是机器需要通过运动来学习。运动可以表征位置。如果缺少的话，对世界的表示将有偏差。

三是机器需要创建很多模型。新皮质的每个皮质柱学习一个包含数千个对象的模型，解决绑定问题（一个独特的感知）的过程是通过投票进行的。一台机器需要获取相同的进程。

四是机器需要使用参考系来存储知识。思考是一种运动。它是通过连接参考系中的点而出现的。如果机器不能使用运动，它就不能思考。

可能在未来几十年里，我们不用担心人类被彻底替代，更不用担心科幻小说里那种AI产生意识、奴役人类的噩梦。但我们可能会越来越依赖机器和算法为我们提供便利，甚至做决定。

杰夫·霍金斯在他的书中反复提及人其实对自己的大脑知之甚少，有很多未解之谜，对人的研究太少，这才是我们更应该担心的。因为与跟发展人工智能的热情相比，我们不太注重研究人的意识，那么计算机有了极先进的人工智能之后，可能只会增强人类的“自然愚蠢”。

当先进的算法更了解我们，更会触发我们的情绪，并且运用这种神奇的能力找到我们深层次的焦虑、恐惧来推销，甚至操纵。当我们沉浸于Sora为我们打造的视觉盛宴和奇幻世界而不再对现实和自然进行感知运动学习，不再丰富我们自己的世界模型。这才是最危险的。

事实上，人工智能还没来操纵我们，就有很多卖课人仅利用人工智能的概念就捕获了几十万人的焦虑，赚得盆满钵满。

Sora还没让我们沉浸于视觉盛宴和虚拟世界难以自拔，我们就被直播和短视频撩得难以脱身。

大家都在玩手机，只有人工智能在翻资料，啃数据。

参考资料：返回搜狐，查看更多

1、[美] 杰夫·霍金斯《千脑智能》，浙江教育出版社
2、机器之心《Sora到底懂不懂物理世界？一场头脑风暴正在AI圈大佬间展开》
3、新智元《Sora不懂物理世界，翻车神图全网爆笑！LeCun马斯克激辩世界模型》
4、尤瓦尔·赫拉利《今日简史：人类命运大议题》，中信出版社
5、赛博禅心《中学生能看懂：Sora 原理解读》

责任编辑：

钛媒体APP

Sora要彻底取代人类，还差什么？