世界模型
模拟环境动态的系统模型
世界模型是人工智能领域用于模拟环境动态并预测未来状态的核心技术框架,通过多模态数据训练构建系统内部表征,需具备生成性、多模态与互动性三大核心能力,被认为是实现人类水平人工智能的正确方法。该模型在自动驾驶、机器人、视频生成及科研医疗等领域有广泛应用。
发展脉络
世界模型理论演进历经三个阶段:
2024年成为技术突破关键年,GPT-4实现初级时空推理能力,Sora模型视频生成时长突破60秒物理连贯性极限。
2025年10月,特斯拉宣布构建了一个完全由神经网络驱动的“世界模型”,声称通过该系统,AI能在一天内获得相当于人类五百年的驾驶经验。
2025年12月,杨立昆宣布将在三周后离职Meta自立门户,他创立了AMI(Advanced Machine Intelligence)公司,专注于世界模型研究,总部设在巴黎,并在纽约等地设立分办公室。该公司正就融资事宜展开初步洽谈,拟募资5亿欧元(约合5.86亿美元),估值达30亿欧元(约35亿美元),并邀请亚历山大·勒布伦担任首席执行官。新公司目标开发新一代超级智能人工智能系统,依托世界模型技术。LeCun公开批评大型语言模型(LLM)路线是死路,无法通往通用人工智能(AGI),并强调世界模型是正确方法;同时预测类人AI可能在5-10年内实现,但AGI概念本身无意义。
同月,李飞飞创立的独角兽公司World Labs发布了名为Marble的商用世界模型平台,可根据文本或图片生成可实时进入、自由探索且符合物理逻辑的3D世界,并明确提出将颠覆如Unity虚幻引擎等传统游戏引擎。李飞飞将这种能力定义为“空间智能(Spatial Intelligence)”。
与此同时,谷歌DeepMind发布了技术“大杀器”Genie 3,这是一个能够以每秒24帧、720p分辨率实时生成并响应用户指令的动态世界模型。其显著特点是具备物理一致性与交互性,例如能在虚拟世界中保留物体状态,并能自发通过数据训练涌现出对物理规律的理解。研究团队称其为通往AGI的关键拼图及具身智能的最佳练兵场。
此外,马斯克的人工智能公司xAI也在2025年组建了高薪“Omni团队”,重点攻关世界模型,旨在为旗下人形机器人Optimus和全自动驾驶系统提供核心能力。其直接的应用目标是在2026年底前推出一款完全由AI生成的游戏,将游戏产业作为世界模型技术的重要试验场。
同月17日,腾讯混元发布世界模型1.5(Tencent HY WorldPlay),用户输入文字描述或图片即可生成可实时交互的虚拟世界,并可通过键盘、鼠标或手柄控制虚拟相机移动与转向,实现自由探索AI生成场景。该模型被描述为国内首个开放体验的实时世界模型,用户可在混元3D官网申请使用。同时,混元世界模型1.5开源了涵盖数据、训练、流式推理部署等全链路的实时世界模型框架,并公开了模型预训练、持续训练、自回归视频模型强化学习、带记忆力的模型蒸馏等训练细节。
LeCun回顾其研究历程,从2000年代无监督学习探索到JEPA(联合嵌入预测架构)的演进,强调世界模型在抽象表示空间中进行预测的重要性。
观点与展望
杨立昆预测通用人工智能最乐观估计在5-10年内达到狗类智能水平,但可能因未知障碍延长至20年或更久。他主张从设计层面构建AI安全,通过硬编码安全约束。对于学习建议,他推荐学习数学、物理、工程等具有长期价值的知识。杨立昆展望AI将增强人类能力而不会统治人类,因为统治欲是人类社会性产物。
DeepMindCEO德米斯·哈萨比斯同样坚信,基于模拟和现实物理世界训练而成的“世界模型”将引领AI实现下一次飞跃,是超越大型语言模型(LLM)和聊天机器人、实现强大且实用AI的路径。他领导的“阿斯特拉计划”旨在落地此类世界模型,可能引发继聊天机器人之后的新一轮范式革命。
2026年1月,在CES 2026上,World Labs联合创始人兼CEO李飞飞展示了其首款商用世界模型Marble,她指出:“最令我兴奋的是,这代表了人工智能在我们生活中的角色转变,从被动理解文字和图像转向帮助我们与世界互动。”同时她强调,尽管人工智能技术强大,但“我们有责任以反映人类核心价值的方式开发和部署它,即增强人类的创造力、生产力以及我们彼此间的关怀。必须让‘人’始终牢牢位于故事的中心,无论技术本身变得多么强大”。
世界模型在游戏等领域的应用也引发了行业讨论,有观点认为AI的过度使用可能影响内容质量,而支持者则认为世界模型能提升开发效率,游戏行业同时强调人类情感和领导力在内容创作中的核心作用。
应用进展
自动驾驶领域
2025年,在智能驾驶软件算法路线中,世界模型成为重要演进方向,华为等公司在其方案中强调世界模型的应用。世界模型通过扩散模型生成仿真感知数据,提升系统对极端场景的处理能力。截至2025年,Iso-Dream等系统已实现实时环境运动趋势预测,华为ADS 4.0方案成功实践技术验证。华为的智能驾驶方案基于软件算法迭代,通过云端算力进行世界引擎训练,并在ADS 4相关车型上落地。2025年11月,小米YU7发布HAD增强版,引入“强化学习+世界模型”架构后,让小米辅助驾驶进入“认知驱动”的阶段,世界模型作为仿真引擎,能够生成海量的场景,不再只依赖现实道路随机出现的数据,而是能够基于小米自建大规模4D数字资产库,生成海量、可控、可复现的训练场景,系统可以在这些高保真的虚拟环境中进行针对性训练。2025年10月,特斯拉宣布构建了一个完全由神经网络驱动的世界模型,声称通过该系统,AI能在一天内获得相当于人类五百年的驾驶经验,用于持续训练和优化自动驾驶算法,增强对各类复杂场景的识别及应对能力。马斯克进一步指出,世界模型在3D环境中的表现将直接关乎特斯拉FSD(完全自动驾驶)处理复杂的物理突发状况的能力。智能驾驶向世界模型演进对云端算力提出更高要求,行业加强云端算力建设以支持模型训练和仿真验证。
机器人技术应用
机器人技术应用聚焦动态交互建模,MORL框架通过多目标强化学习预测机械臂操作路径,Trajectron++系统可模拟人机协作场景。2024年DeepMind团队研发的导航模型能预判障碍物位移轨迹。宇树科技开源的UnifoLM-WMA-0模型专为通用机器人学习设计,通过预测未来交互优化决策性能。2025年12月18日,商汤科技大晓机器人中科曙光正式达成战略合作,将共建国产化“算力基础设施+世界模型+具身智能”生态,围绕国产化人工智能基础设施与具身智能关键技术方向,依托各自技术与产业优势,协同推动软硬一体的生态建设,旨在加速AI能力向物理世界延展。同日,据报道,Meta人工智能首席科学家杨立昆的新创公司计划依托世界模型技术构建人工智能系统,这类系统能够理解物理世界,可应用于机器人技术、交通运输等多个领域。
2025年12月26日,网易科技报道称,埃隆·马斯克认为世界模型在3D环境中的表现,将直接关乎其人形机器人Optimus能否在现实中熟练叠衣,以及特斯拉FSD能否处理复杂的物理突发状况。
同日,方正富邦基金权益投资部基金经理李朝昱在2026年投资策略会上指出,世界模型等技术的推陈出新,使得人形机器人商业化的进程大大加快。
2025年12月31日,智元机器人宣布发布Act2Goal方案,该方案引入了“目标条件世界模型”,旨在让机器人“以终为始”,通过预测从当前到目标的未来视觉轨迹来指导动作生成。
2026年1月5日,北京市宣布将实施人形机器人创新应用行动计划,并计划京津冀联动培育千亿级具身智能产业集群,以推动世界模型在机器人领域的应用和产业生态建设。
视频生成领域
视频生成领域实现双重突破:Sora模型(2024)可生成遵循牛顿力学的物体运动视频,World Labs开发的3D场景生成器能渲染符合建筑力学的虚拟环境。李飞飞团队研发的Marble平台通过多模态输入生成可交互的3D世界。例如,在沉浸式教育等领域,该技术展示了应用潜力,能够提升抽象概念理解。李飞飞将这种能力称为“空间智能”,并认为该技术将颠覆Unity和Epic的Unreal等传统游戏引擎。2025年12月,腾讯混元发布世界模型1.5,用户输入文字描述或图片即可生成可实时交互的虚拟世界,并可通过键盘、鼠标或手柄控制虚拟相机移动与转向,自由探索AI生成场景,成为国内首个开放体验的实时世界模型。谷歌DeepMind发布了Genie 3世界模型,能以每秒24帧、720p分辨率实时响应用户文本指令生成动态数字世界,并展现出“物理记忆”功能(如物体状态持久化),其物理常识能力被报道称在海量数据训练中“自发涌现”。
科研医疗领域
科研医疗领域应用世界模型模拟分子互动加速药物发现,教育领域通过沉浸式教学提升抽象概念理解。Meta FAIR团队发布的Code World Model支持131k token上下文,通过模拟代码执行轨迹提升生成代码的可执行性。
游戏产业应用
全球视频游戏产业2025年预计营收近1900亿美元,但开发周期延长至5到7年、成本动辄超过10亿美元。AI世界模型技术如谷歌DeepMind的Genie 3被预测将彻底改变游戏创作,目前AI已帮助将开发速度提升4倍,近90%的视频游戏开发者使用AI智能体提高效率。未来玩家或可通过自然语言指令实时生成个性化游戏世界,AI允许工作室先生成预告片和玩法测试玩家兴趣再决定开发,极大降低风险。
六个欧洲视频游戏工会抗议AI过度使用导致工作条件恶化和裁员,批评者担忧AI世界模型可能产生海量‘内容垃圾’。
技术架构
根据李飞飞等学者最新研究,世界模型需具备生成性、多模态、互动性三大核心能力。生成性指能生成语义、几何、物理一致的三维模拟环境;多模态指可处理图像、视频、深度、文本等任意输入模态;杨立昆指出,仅靠文本训练无法实现人类水平AI,认为世界模型是正确方法;互动性指能根据动作预测系统状态变化,实现因果推理。世界模型由三层核心架构构成:视觉编码层压缩原始感知数据,记忆建模层构建时空表征,控制决策层生成动作规划。具体实现方式包含:
2025年杨立昆创立的AMI公司。
技术挑战
当前技术瓶颈集中体现在三方面:
2024年清华团队提出三维神经辐射场(3D NeRF)与物理引擎联用方案,将刚体运动预测误差降低至8.3%。
最新修订时间:2026-01-06 17:13
目录
概述
发展脉络
参考资料