如果你曾困惑,为什么人工智能能写出精妙的诗句,却会在描绘一颗滚落的苹果时忽略重力。那么你已经在无意中触碰到了当今AI领域最核心的断层:语言模型的辉煌,与世界模型的缺席。
(资料图)
前者栖居于词语编织的符号之网,后者则试图在代码中重建万物运转的隐秘法则。这场从“会说”到“会想”、从“知道”到“懂得”的迁徙,正定义着通用人工智能真正的起跑线。
说到底,发展世界模型不是为了造一个更聪明的聊天对象,而是为了给人工智能装上一套关于存在本身的坐标系,让它在理解世界规律的基础上,去预测、去创造、去真正地与我们脚下的现实对话。
世界模型的技术路径有哪些,各自的优缺点又是什么
而关于世界模型的技术路径,目前还没有大一统的标准答案。如果从现有的探索方向来看,业界大致分化出三个典型的派别。
第一派可以称之为 “认知派” ,走的是极致的抽象路线,代表人物是图灵奖得主杨立昆(Yann LeCun)。他觉得像Sora那样逐帧预测画面,本质是一种像素幻觉,太浪费算力。杨立昆主导的JEPA架构,核心思想是不去管画面漂不漂亮,而是让AI在一个压缩过的潜在空间里,纯粹去预测“接下来会发生什么”的抽象状态。这就好比一个经验丰富的老司机,开车时根本不用计算每片树叶的轨迹,他的大脑只是在处理“前方有障碍物需要减速”这一层核心信息。这条路线的优势在于计算效率极高,对因果逻辑的把握也更贴近直觉,非常适合给机器人当后台决策系统。但缺点也很明显,因为它放弃了可视化生成,我们人类完全“看不见”它的思考过程,离能直接落地的商业产品还有相当长的距离。
第二派是 “空间派” ,走的是视觉直观的路线,代表是李飞飞团队的Marble模型。这条路径更接地气,它利用高斯泼溅这类3D渲染技术,像神笔马良一样,直接凭空构建出能够360度探索的精美三维场景。这种做法的优势肉眼可见,它能生成持久、可编辑的3D资产,可以直接打通游戏引擎的工作流,商业化前景非常光明。但它的短板同样很扎眼:模型捕捉到的更多是世界的“皮相”,缺乏对物理规律的内在理解。
第三派则是 “模拟器派” ,试图在前两者之间找到一条折中之道,代表是谷歌的Genie 3和阿里的HappyOyster。它不像认知派那样完全抛弃视觉,也不像空间派那样生成静态资产,而是创造出一个像电子游戏般、能根据用户输入实时演进的交互式视频环境。比如你一声令下让它“下雨”,整个世界就会动态响应。它的优点在于画面和用户是双向奔赴的,支持长时间的连贯探索。但说到底,其内核还是基于视频生成的逻辑,并没真正掌握背后的物理因果,在机器人训练等需要精确物理推演的领域,能力还是不如认知派那么硬核。
所以,尽管大家都在谈“世界模型”,但不同技术路径其实是在搭建不同功能的“地基”,一个重逻辑,一个重表现,一个重交互。哪种地基才能最终撑起AGI这座大厦,眼下还没有定论。
结语
回望这场关于世界模型的探讨,从它试图弥合语言与物理之间那道幽深的裂缝开始,到多元技术路径的各自跋涉,我们看到的不仅是算法架构的分野,更是对“智能”二字截然不同的想象。
语言模型教会了机器如何像人类一样言说,而世界模型正试图教会它如何像人类一样沉默地预演未来——在说出答案之前,先在内心的微型剧场里让水泼出、让球落地、让光影流转。当然,眼下的现实尚显骨感:认知派的抽象逻辑虽强,却难见其形;空间派的视觉华美,却无物理之魂;模拟器派的交互虽灵,却终究隔着一层因果的薄纱。然而正是这种路径的百花齐放,预示着一种深刻的共识正在凝聚:通往更高阶智能的道路,必须向下扎根,扎进对时空、因果和物质连续性的敬畏之中。
演员