什么是AI领域的世界模型？

世界模型本质是机器的“脑内沙盘”，可在机器内部构建可推演、可复盘的环境，无需真实行动即可预测事件走向、反复试错，核心目标是降低对真实数据的依赖，可应用于自动驾驶、具身智能、游戏娱乐等多个领域。

世界模型的主流技术路线有哪些？

当前世界模型主要有三条技术路线：一是以Sora、Genie 3为代表的生成式视频模型“画画”路线；二是以JEPA为代表的抽象表征预测“心算”路线；三是以NVIDIA Omniverse为代表的三维环境生成“搭积木”路线，三者边界正在逐步模糊。

世界模型的产业链是怎么构成的？

世界模型产业链分为三层结构：上游是基础支撑层，涵盖高精度数据采集、算力服务、传感器硬件；中游是技术平台层，分为通用型平台和垂直型平台两类；下游是场景应用层，覆盖自动驾驶、具身智能等多个领域。

世界模型的主要应用场景有哪些？

世界模型可应用于多个领域，其中自动驾驶是当前应用成熟度最高的场景，几乎所有主流车企都已将其纳入研发核心流程；此外还可落地于具身智能、智能建造、游戏娱乐、医疗模拟、气候预测等场景。

世界模型概念入门：一个从心理学烧到 AI 主战场的故事

Judy 2026-06-29 11:29

Judy 2026/06/29 11:29

邦小白快读

全文速览

本文梳理了当前AI领域最热概念世界模型的核心入门信息，帮助普通人快速理解这个前沿概念。

1. 核心本质：世界模型就是AI的“脑内沙盘”，核心是让AI在真正行动前，先在内部构建可推演、可复盘的环境，不需要依赖大量真实数据就能反复试错，可应用在自动驾驶、机器人、游戏影视等多个领域，能大幅降低落地试错成本。

2. 清晰梳理了概念的发展脉络：思想源头来自1943年心理学家提出的心智模型，后经AI先驱的框架理论补充，2018年才正式成为深度学习领域的工程目标。

3. 总结了当前主流的三条技术路线，明确了世界模型从学术概念走向分层产业基础设施的发展现状，帮普通人快速抓住这个前沿赛道的核心逻辑。

世界模型的发展将带来多个消费端场景的变革，能为品牌商把握消费趋势、布局新赛道提供清晰参考。

1. 消费趋势层面：世界模型会推动游戏娱乐、虚拟空间、智能出行、智能服务等领域的消费升级，未来可无限探索的平行虚拟世界、更安全的自动驾驶出行、更智能的服务机器人都会成为新的消费热点，品牌可提前布局相关赛道。

2. 产品研发层面：世界模型可帮助品牌在虚拟环境中预演产品使用场景，测试不同设计方案的用户反馈，降低新品研发的试错成本，目前头部车企已经用世界模型生成智驾长尾场景完成系统训练。

3. 当前全球头部科技厂商都已布局世界模型，国内阿里、腾讯、华为、主流车企都落地了相关产品，产业已经进入早期发展阶段，品牌可依托科技大厂的平台能力开发创新产品。

世界模型当前正处于从学术概念向产业基础设施过渡的早期阶段，卖家可从中挖掘大量新兴市场机会，同时需要注意规避相关风险。

1. 市场机会层面：下游应用覆盖自动驾驶、具身智能、游戏娱乐、医疗模拟、空间服务等多个领域，当前自动驾驶、汽车、电子、医疗贡献了行业超60%的营收，具身智能、虚拟内容是增长最快的新兴方向，相关硬件、内容、服务都存在创业机会。

2. 产业链分层已经成型，上游是算力、数据、传感器，中游是通用和垂直技术平台，下游是场景应用，中小卖家可切入细分垂直场景，依托中游平台能力降低研发门槛。

3. 风险提示：当前千亿参数世界模型单次训练成本可达数百万美元，技术路线尚未统一，不同路线试错成本差异大，早期入场需要控制投入，优先从场景落地切入，不要盲目布局底层技术。

世界模型的发展为制造业工厂带来了新的商业机会，也为工厂推进数字化和智能化转型提供了新的方向。

1. 产品生产和设计需求层面：世界模型可帮助工厂在仿真环境中测试产品性能，模拟不同生产条件、不同使用场景下的产品表现，尤其是机器人、自动驾驶相关硬件产品，可通过世界模型提前预演设计方案，减少实体开模的试错成本，缩短研发周期。

2. 商业机会层面：下游工业仿真、具身智能工业机器人是世界模型的核心应用场景，当前超过60%的工业机器人已经使用世界模型辅助训练，面向工业场景的仿真训练、设备升级都有大量需求，相关零部件工厂、解决方案工厂可提前布局。

3. 数字化转型启示：工厂可依托现有通用世界模型平台，搭建适配自身生产需求的仿真系统，实现生产流程、产品测试的数字化预演，提升生产效率、降低运营成本。

当前世界模型行业处于早期发展阶段，产业链已经形成清晰的分层结构，为各类技术服务商带来了大量市场机会和明确的发展方向。

1. 行业发展趋势：世界模型已经成为全球AI产业的必争之地，全球顶尖学者和头部科技大厂都在加码布局，最终会成为AI产业的通用基础设施，当前产业对标准化、模块化的世界模型工具需求强烈，统一标准、开放生态是未来的核心发展方向。

2. 客户核心痛点：底层技术研发成本过高，中小客户没有能力独立研发完整世界模型，不同场景的个性化需求难以满足，数据稀缺、算力成本高、模型泛化能力不足是行业普遍存在的痛点。

3. 解决方案方向：服务商可面向细分垂直场景，依托上游算力厂商和通用平台的能力，开发适配细分场景的模块化解决方案，比如面向自动驾驶的长尾场景生成方案、面向工业机器人的训练仿真方案，填补通用平台无法满足的个性化需求缺口。

世界模型产业的发展对平台商提出了新的要求，也明确了平台商的发展方向和需要规避的潜在风险。

1. 产业对平台的核心需求：当前世界模型处于发展早期，产业需要通用型平台提供基础能力，降低中小开发者的入场门槛，同时需要垂直型平台适配不同行业的特定需求，统一标准和可复用组件是当前行业最迫切的需求。

2. 平台可行发展方向：可分为通用型和垂直型两类布局，通用型平台可打造模块化、可拼接的世界模型工具箱，吸引开发者共建生态，参考OpenWorldLib的标准化框架思路；垂直型平台可聚焦自动驾驶、工业、医疗等高营收赛道，打造场景化解决方案。

3. 风险规避：不要盲目押注单一技术路线，要控制大模型研发的算力成本，优先依托现有生态整合能力逐步推进，当前三条技术路线融合是大趋势，可提前布局融合性技术架构。

本文梳理了世界模型领域从思想源头到产业落地的完整发展脉络，总结了当前领域的最新研究进展和产业动向，对相关研究者有较高的参考价值。

1. 最新产业和研究动向：当前世界模型已经从学术概念进入早期产业落地阶段，全球学界和产业界都在大规模投入，国内清华、北大等高校都有核心研究布局，大厂和主流车企也已经落地多款产品，产业链三层结构已经成型，WAM世界动作模型是最新的研究方向，三条技术路线逐步走向融合是行业大趋势。

2. 领域现存新问题：目前概念命名不统一，不同技术路线各有优劣，底层训练成本过高，数据稀缺，物理一致性、泛化能力等核心技术问题尚未解决，还有较大的研究突破空间。

3. 研究启示：概念不统一是技术革命早期的常态，不同路线并行试错有利于推动领域发展，跨学术界和产业界的合作已经成为常态，这种合作模式值得研究者参考，可聚焦统一框架构建、核心痛点突破、细分场景落地方向开展研究。

返回默认

声明：快读内容全程由AI生成，请注意甄别信息。如您发现问题，请发送邮件至 run@ebrun.com 。

我是品牌商卖家工厂服务商平台商研究者帮我再读一遍。

Quick Summary

This article organizes core introductory information about world models, the hottest concept in today’s AI space, to help the general public quickly understand this cutting-edge concept.

1. Core essence: A world model functions as an AI’s "internal sandbox". Its core value lies in enabling AI to construct an internally simulatable, reviewable environment before taking actual actions, allowing repeated trial and error without relying on large volumes of real-world data. It can be applied to autonomous driving, robotics, gaming, filmmaking and many other fields, substantially reducing trial-and-error costs for commercial implementation.

2. Clear development trajectory: The concept originated from the mental model theory proposed by psychologists in 1943, was supplemented by framework theories from AI pioneers, and only formally became an engineering goal in the deep learning field in 2018.

3. It summarizes the three current mainstream technical routes, clarifies how world models are evolving from an academic concept to layered industrial infrastructure, and helps general readers quickly grasp the core logic of this cutting-edge track.

The development of world models will drive transformation across multiple consumer-facing scenarios, providing clear reference for brands to capture consumer trends and布局 new tracks.

1. Consumer trends: World models will fuel consumption upgrades in gaming and entertainment, virtual spaces, intelligent mobility, smart services and other fields. In the future, explorable infinite parallel virtual worlds, safer autonomous driving and more capable service robots will all become new consumer hotspots, and brands can布局 these related tracks in advance.

2. Product R&D: World models enable brands to rehearse product use scenarios in virtual environments and test user responses to different design schemes, cutting trial-and-error costs for new product development. Leading automakers already use world models to generate long-tail autonomous driving scenarios for system training.

3. Today, all global top tech players have布局 world models, and domestic giants including Alibaba, Tencent and Huawei as well as major domestic automakers have launched related products. The industry has entered an early development stage, and brands can leverage the platform capabilities of large tech firms to develop innovative products.

World models are currently in the early stage of transition from an academic concept to industrial infrastructure, presenting sellers with a large number of emerging market opportunities while requiring attention to risk mitigation.

1. Market opportunities: Downstream applications cover autonomous driving, embodied intelligence, gaming and entertainment, medical simulation, spatial services and other fields. Currently, autonomous driving, automotive, electronics and healthcare contribute more than 60% of total industry revenue, while embodied intelligence and virtual content are the fastest-growing emerging directions. Opportunities exist for entrepreneurship in related hardware, content and services.

2. A layered industrial chain has taken shape: the upstream layer covers computing power, data and sensors; the middle layer consists of general and vertical technology platforms; the downstream layer covers scenario-based applications. Small and medium-sized sellers can enter niche vertical scenarios and reduce R&D barriers by leveraging capabilities from middle-layer platforms.

3. Risk warning: The single training cost for a world model with hundreds of billions of parameters can reach millions of dollars. No unified technical standard has been established, and trial-and-error costs vary dramatically across different routes. Early entrants should control investment, prioritize scenario-based implementation, and avoid blindly布局 underlying technologies.

The growth of world models brings new business opportunities to manufacturing factories, and also provides a new direction for factories advancing digital and intelligent transformation.

1. Product design and production: World models help factories test product performance in simulated environments, and simulate product performance under different production conditions and different usage scenarios. For hardware products related to robotics and autonomous driving in particular, world models enable pre-rehearsal of design schemes, reducing trial-and-error costs for physical prototyping and shortening R&D cycles.

2. Business opportunities: Downstream industrial simulation and embodied intelligent industrial robots are core application scenarios for world models. Currently, more than 60% of industrial robots use world models for auxiliary training. There is strong demand for simulation training and equipment upgrade for industrial scenarios, and related component and solution factories can布局 these opportunities in advance.

3. Insights for digital transformation: Factories can build simulation systems adapted to their own production needs based on existing general world model platforms, to realize digital pre-rehearsal of production processes and product testing, improve production efficiency and cut operating costs.

The world model industry is currently in an early development stage, with a clear layered structure already formed in the industrial chain, bringing a large number of market opportunities and clear development directions for all types of technology service providers.

1. Industry development trend: World models have become a key competitive battleground for the global AI industry, with top scholars and leading tech companies all ramping up investment. They will eventually become general infrastructure for the AI industry. Currently, the industry has strong demand for standardized, modular world model tools, and unified standards and an open ecosystem are the core development direction going forward.

2. Core customer pain points: Underlying technology R&D is extremely costly, and small and medium-sized customers cannot afford to develop a complete world model independently. It is also difficult to meet personalized demands across different scenarios. Data scarcity, high computing costs, and insufficient model generalization are common pain points across the industry.

3. Solution directions: Service providers can target niche vertical scenarios, leverage capabilities from upstream computing providers and general platforms, and develop modular solutions adapted to specific scenarios—for example, long-tail scenario generation for autonomous driving, and training simulation for industrial robots—to fill the gap of personalized demand that cannot be met by general platforms.

The growth of the world model industry raises new requirements for platform operators, while also clarifying their development direction and potential risks to avoid.

1. Core industry demand for platforms: World models are still in an early development stage, and the industry needs general platforms to provide basic capabilities to lower entry barriers for small and medium developers. It also needs vertical platforms to adapt to the specific demands of different industries. Unified standards and reusable components are the most urgent needs of the industry today.

2. Viable development directions for platforms: Layout can be divided into general and vertical categories. General platforms can build a modular, combinable world model toolkit to attract developers to co-build an ecosystem, following the standardized framework approach of OpenWorldLib. Vertical platforms can focus on high-revenue tracks including autonomous driving, industrial applications and healthcare, to build scenario-specific solutions.

3. Risk mitigation: Avoid blindly betting on a single technical route, control computing costs for large model development, and prioritize gradual advancement based on existing ecosystem integration capabilities. The convergence of three current technical routes is the overall industry trend, and platforms can布局 converged technical architectures in advance.

This article organizes the full development trajectory of the world model field from its conceptual origins to industrial implementation, summarizes the field’s latest research progress and industry trends, and offers high reference value for relevant researchers.

1. Latest industry and research trends: World models have now moved from an academic concept to the early industrial implementation stage, with global academia and industry investing heavily on a large scale. Domestic top universities including Tsinghua and Peking have established core research programs, while large tech firms and major automakers have already launched multiple products. A three-layer industrial chain structure has taken shape; the World Action Model (WAM) is the latest research direction, and the gradual convergence of three technical routes is the overall industry trend.

2. Existing unsolved issues in the field: Currently, the concept lacks unified naming, different technical routes each have their own pros and cons, underlying training is extremely costly, data is scarce, and core technical challenges including physical consistency and generalization ability remain unsolved, leaving substantial room for research breakthroughs.

3. Research insights: Inconsistent concept naming is a normal characteristic of the early stage of a technological revolution, and parallel trial and error across different routes promotes industry development. Cross-industry-university collaboration has become the norm, and this cooperation model is worth reference for researchers. Researchers can focus their work on building unified frameworks, solving core pain points, and implementing solutions for niche scenarios.

Disclaimer: The "Quick Summary" content is entirely generated by AI. Please exercise discretion when interpreting the information. For issues or corrections, please email run@ebrun.com .

I am a Brand Seller Factory Service Provider Marketplace Seller Researcher Read it again.

作者 |Judy

来源 |IT桔子

世界模型是眼下AI圈最热、却也最让普通人一头雾水的概念。有人说它是让AI做梦的能力，有人说它是自动驾驶的仿真器，还有人说它是机器人大脑。

李飞飞、Yann LeCun、OpenAI、Google DeepMind、英伟达，乃至国内阿里、腾讯、华为、车企，各有各的定义。

本文尝试用大白话讲清楚：

世界模型到底想解决什么问题；这些学者和大厂为什么会对它着迷；以及这个概念为什么在名字都没统一的时候，就已经成了产业必争之地。

一、一句话理解：

让AI在“脑内沙盘”里预演世界

想象你站在路口准备过马路。

你的眼睛看到绿灯、车辆、行人，大脑会在零点几秒内构建一个微型场景：如果我现在走，那辆车会不会加速？那个骑车的人会不会突然转弯？

你并没有真的走出去，而是在脑子里先把几种可能过了一遍。

心理学家把这种能力叫“心智模型”，AI研究者则把它叫“世界模型”。

换句话说，世界模型就是机器里的一个“脑内沙盘”。

它不是简单识别画面里有什么，而是能预测接下来会发生什么，并在不真正行动的前提下反复试错。

对自动驾驶来说，它可以生成暴雨、暴雪、异型障碍的虚拟考卷；对机器人来说，它可以让人形机器人在仿真世界里摔上十万次再出门；对游戏和影视公司来说，它可能是一个可以无限探索的平行宇宙。

2026年，“世界模型”这个词出现在科技报道里的频率，已经超过了它的定义清晰度。

阿里做了Qwen-AgentWorld、HappyOyster、Qwen-RobotWorld，分别指向语言世界、虚拟世界和物理世界；腾讯的HY-World 2.0强调3D可编辑世界；蔚来、小鹏、理想更愿意说“驾驶世界模型”或“世界行为模型”；华为、百度在公开材料里甚至不常单独使用这个词。

命名的混乱，让这个概念看起来像一个筐，什么都能往里装。

但所有叫法背后有一个共同的内核：

让机器在真正行动之前，先在内部建立一个可推演、可复盘的环境。这个环境可以是像素、可以是三维结构、可以是物理参数、也可以是抽象状态。目标都是降低对真实数据的无限依赖，把真实世界压缩成能够无限生成、无限犯错、无限重来的数据引擎。

名字不统一，恰恰说明世界模型正处在从学术概念向产业基础设施过渡的早期阶段。

二、思想的源头：

一位二战心理学家和几位AI先驱

2.1 Kenneth Craik：最早说出“脑内小模型”的人

世界模型的思想，比深度学习早了大半个世纪。1943年，苏格兰心理学家Kenneth Craik在《解释的本质》一书中提出，人类大脑会构建现实的“小规模模型”，用来预测和理解外部事件。

Craik当时只有31岁，是剑桥大学心理学实验室的学者，二战期间还在英国从事应用心理学研究。

他的书出版两年后，他就因自行车事故去世，年仅33岁。

但这个想法却被保留了下来：人类不需要完整复刻世界，只需要一个足够好用的内部模型，就能在行动前进行预演。

这个观点和今天AI世界模型的核心几乎一致。机器也不用记住世界每一个细节，而是学习世界运行的规律，并在需要时推演未来。

Craik之后，1980年代英国心理学家Philip Johnson-Laird进一步把这套思想系统化，证明人类大量推理其实都是在操控脑内的“心智模型”。他长期任教于普林斯顿和剑桥，是认知科学领域的重要人物。

2.2 Marvin Minsky：想让机器拥有常识框架的人

人工智能领域同样早有呼应。1960年代，Marvin Minsky在麻省理工学院提出“框架理论”。

他是MIT AI实验室的联合创始人，1969年图灵奖得主，常被看作人工智能学科的奠基人之一。

框架理论试图用结构化的知识框架来捕捉人类关于世界的常识：

进门要先找门把手，餐厅里通常有桌椅，物体受重力会下落。

Minsky想做的，正是今天世界模型仍未完成的事——让机器拥有一个结构化、可推演的世界常识库。

2.3 David Ha与 Jürgen Schmidhuber：把世界模型带回深度学习主流

强化学习领域则从另一条路接近了同一个目标。

2018年，David Ha与 Jürgen Schmidhuber在 NeurIPS发表的论文《Recurrent World Models Facilitate Policy Evolution》，把“世界模型”这个术语重新带回了深度学习主流。

David Ha当时任职于Google Brain，后来成为独立研究者。他的工作风格偏工程化，善于用简洁的架构做出惊艳的Demo。

Jürgen Schmidhuber是瑞士AI实验室IDSIA的联合创始人，长短期记忆网络LSTM的发明者之一，在AI领域以敢言和独立见解著称。他有时被称为“现代AI之父”，虽然这个称号有争议，但他的学术影响力毋庸置疑。

他们的架构很简洁：

用VAE把高维画面压缩成低维潜在向量，用RNN学习这些向量随时间的变化，再用一个简单的控制器在“想象”中训练策略。

智能体先在学到的世界模型里做梦，再把策略迁移回真实环境。

这篇论文入选了NeurIPS口头报告，直接启发了后来的Dreamer系列，也把“世界模型”从一个心理学概念变成了深度学习里的工程目标。

三、学者们眼中的世界模型

3.1 Yann LeCun：不要只会生成视频，要理解物理

Yann LeCun（杨立昆）是法国人，纽约大学教授，Meta首席AI科学家。

他是卷积神经网络CNN的发明者之一，2018年与李飞飞的博士导师Geoffrey Hinton、Yoshua Bengio共同获得图灵奖，三人被誉为“深度学习三巨头”。

LeCun一直对当前大语言模型的路径持批评态度，他认为仅靠预测下一个词无法产生真正的智能。

2022年，他在一篇名为《A Path Towards Autonomous Machine Intelligence》的文章中提出，真正的智能需要一个可配置的预测世界模型。

目标不是生成文字或画面，而是理解物理世界的规律，并预测行动后果。他甚至批评继续堆叠大语言模型是“胡扯”，认为智能的核心在于学到真实世界的物理结构。

JEPA是这条路线的技术载体。JEPA全称Joint Embedding Predictive Architecture，即“联合嵌入预测架构”。

与在像素空间预测下一帧不同，JEPA在抽象的表示空间里模拟世界状态的变化。

打个比方：视频生成模型是在画下一幅画，JEPA则是在心里“感觉”接下来会发生什么。

2023年的I-JEPA、2024年的V-JEPA、2025年的LeJEPA、2026年的LeWorldModel，构成了一个持续演进的体系。

LeCun还引入了“系统1 / 系统2”的概念：系统1 是直觉性快速反应，系统2 是调用世界模型进行深思熟虑的推理与规划。

最新理论工作甚至证明，在某些条件下，JEPA学到的表示能够与真实物理变量建立线性对应关系，即模型在数学意义上学到了物理结构，而不只是一种好用的编码。

3.2李飞飞：用“行动—观察”闭环给世界模型分类

李飞飞是斯坦福大学计算机科学教授，ImageNet数据集的主要创建者。ImageNet在 2012年催生了深度学习革命，她也因此被称为“AI教母”。

她曾任Google Cloud AI首席科学家，2023年创立World Labs，专注于空间智能和3D世界模型。2024年，她因推动AI民主化和医疗等领域的应用获得多项荣誉，是当今AI领域最具影响力的华人科学家之一。

2026年 6月，李飞飞与World Labs团队发布了一篇被广泛转载的文章，试图给混乱的世界模型概念建立分类学。

她援引强化学习中的POMDP，也就是“部分可观测马尔可夫决策过程”。

这个概念听起来复杂，其实描述的是一个很简单的循环：智能体采取行动，行动改变世界状态，智能体获得观测，再依据观测采取下一步行动。

她指出，所有被称为世界模型的系统，本质上都是这个循环在不同方向上的投影，每一类只输出循环中的一个片段。

据此，她把世界模型分为三类。

第一类是渲染器，输出观测，即供人眼观看的像素，典型代表是视频生成模型和Google Genie 3，优化目标是视觉保真度。

第二类是模拟器，输出状态，即在几何、物理、动力学层面忠实的世界表征，典型代表是NVIDIA Omniverse和 World Labs的 Marble，优化目标是结构准确性。

第三类是规划器，输出行动，即给定观测和目标后回答“下一步该做什么”，典型代表是VLA和 World Action Models。

李飞飞认为，这三类能力的底层依赖的是同一种知识，最终趋势是走向统一的世界模型。

3.3清华FIB-Lab：世界模型只有两类，理解世界或预测未来

清华大学FIB-Lab是一个长期研究通用人工智能、具身智能和机器人学习的团队。FIB通常被理解为“未来智能与大脑”相关实验室，隶属于清华大学智能产业研究院。

该团队在世界模型和机器人领域发表过大量综述和论文，是国内研究这一方向的重要力量之一。

2026年，他们发布了综述《Understanding World or Predicting Future：A Comprehensive Survey of World Models》，用另一种方式切分了这个领域。

他们把世界模型的核心功能分为两大类：理解世界和预测未来。

理解世界强调构建外部环境的隐式表征，以支持决策，代表是Dreamer系列和基于大语言模型的世界知识。

预测未来强调显式生成未来状态，典型是Sora、Genie 3、Cosmos等视频或3D环境生成模型。

这个分类的好处是更贴近工程实践：前者服务强化学习和决策，后者服务生成与仿真。

3.4北大OpenWorldLib：给世界模型做一个标准化工具箱

2026年 4月，北京大学联合快手等机构发布了OpenWorldLib。北京大学是国内人工智能基础研究重镇，拥有机器感知与智能教育部重点实验室等机构；快手则是国内短视频巨头，近年来在大模型和多模态生成上投入颇多。

两者联合发布OpenWorldLib，显示出学术界和产业界都开始意识到世界模型需要统一标准和可复用组件。

OpenWorldLib首次尝试给世界模型一个标准化定义：一个以感知为核心、具备交互和长期记忆能力的模型或框架，用于理解和预测复杂世界。

他们批评把世界模型简单等同于“预测下一帧”过于狭隘，认为真正的世界模型必须体现对物理规律的真正理解。

OpenWorldLib把世界模型拆成五个核心模块：操作员、合成、推理、表示、记忆，再由流水线模块统一协调。

这个框架更像一个工具箱，目标是让不同研究团队能够像拼乐高一样组合模块。

四、大厂们眼中的世界模型

4.1 OpenAI：Sora是“世界模拟器”

OpenAI是当前全球最有影响力的AI公司之一。它以GPT系列大语言模型和ChatGPT闻名，2024年发布Sora后再次引发全球对视频生成和世界模拟的关注。

2024年 2月，OpenAI发布Sora的技术报告，标题就叫《Video Generation Models as World Simulators》，直接把视频生成模型定位成世界模拟器。Sora不依赖显式的3D建模或物理引擎，而是在大规模视频数据上训练生成模型，使其自发涌现出3D一致性、长期一致性、物体持久性、简单世界交互等能力。

OpenAI认为，视频生成模型的大规模扩展是构建物理世界通用模拟器的一条极具前景的道路。

但Sora的局限也很明显：无法准确模拟玻璃破碎等基本物理过程，长时间样本中会出现不一致，物体可能不受控制地出现。所以它更多是一个方向性宣言，而不是成熟定义。

4.2 Google DeepMind：Genie 3是实时可交互的通用世界模型

Google DeepMind由 Google在 2014年收购英国AI公司DeepMind后组建，Demis Hassabis是联合创始人兼CEO。

DeepMind曾开发出AlphaGo、AlphaFold等里程碑式系统，是全球AI研究的前沿阵地之一。Demis Hassabis本人是计算机科学家、神经科学家，也是游戏设计师，长期关注通用人工智能。

2025年 8月，Google DeepMind发布Genie 3，官方定义是“首个实时、可交互的逼真世界模型”。

它可以根据简单文本描述生成可探索的3D环境，运行帧率达到20-24 fps，支持角色控制、可提示的世界事件和长达一分钟的交互记忆。Genie 3采用自回归方式逐帧生成，基于Google Maps街景数据锚定现实世界，被定位为通向AGI的关键里程碑。

4.3英伟达：Cosmos是物理AI的“世界基础模型”

英伟达由黄仁勋、Chris Malachowsky和 Curtis Priem在 1993年创立，黄仁勋长期担任CEO。公司最初以图形芯片GPU起家，过去十年因为AI训练对算力的爆炸式需求，成为全球AI基础设施的核心供应商。

黄仁勋近年来频繁提出“物理AI”和“AI的下一波是机器人”等判断，英伟达也持续推出面向机器人、自动驾驶和仿真的软硬件平台。

2025年 1月，英伟达发布Cosmos，定位为“世界基础模型平台”。它不是单一模型，而是一系列可以预测和生成虚拟环境未来状态的物理感知视频模型，分为Nano、Super、Ultra三个等级，基于2000万小时真实世界数据训练。

Cosmos的野心是成为物理AI的底层基础设施，服务机器人、自动驾驶、工业仿真等场景。

英伟达还将其开源，允许商业使用。

4.4国内大厂：不叫世界模型，也在做世界模型

国内企业很少在公开材料中给出哲学化的定义，而是直接落到产品和场景。

阿里的三款产品分别覆盖语言世界模拟、虚拟世界生成和机器人物理世界；

腾讯HY-World 2.0聚焦3D可编辑世界；字节Seed世界模型瞄准年底达到Genie 3的 SOTA水平；

华为盘古大模型智能驾驶版强调物理规律学习与闭环仿真；百度Apollo ADFM把世界模型能力融入自动驾驶大模型；小米OneVL试图把VLA与世界模型统一。

车企里，蔚来NWM、理想重建加生成世界模型、小鹏X-World、吉利WAM、比亚迪预研、长城VLA加世界模型，核心用途都是端到端智驾训练和长尾场景生成。

关于这部分的详细展开，可以看IT桔子的文章《没有统一名字的战争：国内各家大厂的世界模型版图》。

五、三条技术路线：

画画、心算、搭积木

从工程角度看，当前世界模型大致有三条主要技术路线，可以用三种比喻来理解。

第一条是“画画”路线，也就是生成式视频模型。Sora、Genie 3、Cosmos、可灵、Pika都属于这一类。核心能力是在像素空间生成未来帧，优势是视觉真实感强、数据门槛低，普通人一眼就能看懂。劣势是物理一致性弱，画面看久了会发现物体变形、重力失效、时间线混乱。

第二条是“心算”路线，以LeCun的 JEPA和 Ha&Schmidhuber的 RNN世界模型为代表。核心思想是不预测像素，而是预测抽象表征。优势是效率高、对物理结构的学习更稳定，劣势是表征空间的可解释性差、工程落地周期长。它更像人类运动员的直觉：不用真的把动作在脑子里逐帧放电影，也能凭身体感觉预判球的落点。

第三条是“搭积木”路线，以NVIDIA Omniverse、World Labs Marble、腾讯HY-World为代表。核心思想是直接生成带有几何、物理、动力学属性的三维环境。优势是精确可控、可编辑、可验证，劣势是数据稀缺、计算成本高、泛化能力受限。它更像工程师的CAD软件，可以精确测量、反复调整，但离自然世界还有距离。

三条路线目前各有阵地，但边界正在模糊。视频生成模型开始加入物理约束，3D模拟器开始引入生成式能力，JEPA架构开始与VLA融合成WAM。李飞飞预言的统一世界模型，正是三者融合的结果。

六、World Action Model：

从“看世界”到“动手做”

2026年 5月，复旦OpenMOSS团队联合多家机构发布了WAM综述，正式提出World Action Models这一范式。

复旦OpenMOSS是国内最早推动大模型开源生态的团队之一，Mooss系列模型在中文社区有较高知名度。

WAM的核心定义是：未来状态预测和动作生成必须在同一个策略内联合学习，而不是先训一个VLA再外挂一个世界模型当辅助。

用通俗方式对比：VLA是“看到画面、听懂指令，然后做出动作”；世界模型是“知道当前状态和动作，能想象出下一帧画面”；WAM则是“看到画面、听懂指令，同时想象出下一帧画面并做出动作”。

这三者合在一起，才是机器人真正需要的“知行合一”的能力。

WAM分为Cascaded和 Joint两种架构。

Cascaded先生成未来帧再解码动作，工程上好搭建但延迟高、错误容易传导。Joint用单一模型同时输出未来和动作，理论上更鲁棒但训练目标设计复杂。

英伟达Jim Fan在 2026年红杉AI Ascent大会上甚至断言“VLA已死，世界动作模型是未来”。Jim Fan是英伟达高级研究科学家，GEAR团队负责人，研究领域涵盖机器人、仿真和具身智能。

虽然这句话争议很大，但足以说明这个方向的热度。

七、产业框架：

三层结构已经成型

世界模型的产业链正在从论文和Demo走向分层基础设施。可以把它想象成盖房子：有人挖矿炼钢，有人生产预制板，有人在上面盖住宅、商场和工厂。

上游是基础支撑层，包括高精度数据采集、算力服务和传感器硬件。

数据采集涉及高精地图、空间扫描、视频采集、遥操作等；算力服务以GPU和云服务器为核心；传感器硬件包括激光雷达、摄像头、IMU等。英伟达凭借GPU在这一层占据隐形霸主地位，几乎所有世界模型训练都离不开其算力支持。

成本是这一层的核心痛点：训练千亿级参数的世界模型需要数千个GPU，单次训练成本可达数百万美元。

中游是技术平台层，分为通用型平台和垂直型平台。

通用型平台跨行业提供通用能力，代表是英伟达Omniverse、商汤开悟、华为盘古、阿里通义系列。垂直型平台聚焦特定行业，如自动驾驶世界模型、建筑世界模型、具身智能世界模型。平台型企业正在通过生态整合占据主导，预计到2030年可能占据产业链50% 以上的市场份额。

下游是场景应用层，覆盖自动驾驶、具身智能、智能建造、游戏娱乐、空间服务、医疗模拟、气候预测等领域。

汽车、电子、医疗被认为贡献了当前行业60% 以上的营收。自动驾驶是应用成熟度最高的场景，几乎所有主流车企都已把世界模型纳入研发核心流程；具身智能是最被看好的新兴方向，工业机器人使用世界模型辅助训练的比例已经超过60%。

八、为什么概念不统一反而是好事

世界模型概念的混乱，常常让外界觉得这是一个被炒作出来的风口。

但从产业史的角度看，概念不统一往往是技术革命早期的常态。

云计算早期有IaaS、PaaS、SaaS之争，大数据早期有Hadoop、NoSQL、数据仓库之争，人工智能早期甚至有符号主义、连接主义、行为主义之争。命名的分歧，反映的是不同群体从不同角度切入同一个宏大问题的过程。

当前世界模型的分歧，本质上是对“世界”到底应该被压缩成什么形态的争论。

做视频生成的人认为世界是像素序列；做3D引擎的人认为世界是几何和物理；做自动驾驶的人认为世界是交通规则和驾驶行为；做机器人的人认为世界是动作后果。

每一种压缩方式都对应不同的数据、算力和应用场景。在产业早期，这种分歧是必要的，它允许不同路线并行试错。

但分歧之下，目标已经收敛。

无论是LeCun的 JEPA、李飞飞的POMDP闭环、Sora的视频生成、Genie 3的 3D交互，还是国内大厂的各类产品，最终都指向同一个能力：让机器拥有一个可推演、可复盘、可泛化的内部世界，从而在现实世界中行动得更安全、更高效、更通用。

语言模型赋予了机器谈论世界的能力，世界模型则试图赋予机器理解、想象、推理并与世界交互的能力。

概念会统一，但那将是格局尘埃落定之后的事。在此之前，命名的混乱恰恰是世界模型进入主战场的标志。

注：文/Judy，文章来源：IT桔子(公众号ID：itjuzi521)，本文为作者独立观点，不代表亿邦动力立场。

文章来源：IT桔子