李飞飞发布全新世界模型，可在单张H100GPU上流畅运行

发布日期：

2025-10-17 14:30:53

浏览次数：

256

【导语】10月16日，“AI教母”李飞飞团队World Labs宣布推出全新实时生成世界模型RTFM，其能在单张H100GPU上实时交互生成视频，突破传统3D图形管线局限，实现高效3D场景渲染与持久虚拟世界构建，展现出在现有硬件上部署高效世界模型的愿景。

10月16日，“AI教母”李飞飞宣布对外推出全新模型RTFM（AReal-TimeFrame Model，实时帧模型）。RTFM是一款全新的实时生成世界模型，能够与用户交互时实时生成视频，并遵循三大核心设计原则：效率、可扩展性、持久性。

RTFM可将单张图像渲染成3D场景，一个模型可处理多种场景类型、视觉风格和效果，包括反射、光泽表面、阴影和镜头光晕。该模型已以预览版形式开放用户体验。

使用 RTFM 渲染的布满阳光的游泳池场景

能在单张H100GPU上运行的“实时世界”

李飞飞团队World Labs表示，强大的世界模型将能够实时重建、生成并模拟具有持久性、交互性且物理精度高的虚拟世界。这类模型将彻底改变从媒体到机器人技术乃至更广泛领域的产业格局。

过去一年间，这项新兴技术发展迅猛，生成式视频建模的突破性进展已成功应用于生成式世界建模领域。一个趋势随之逐渐明朗：生成式世界模型的计算需求将远超当前的大型语言模型。

若简单套用现代视频架构，要生成60帧/秒的交互式4K视频流，每秒需要生成超过10万个标记（相当于《科学怪人》或《哈利·波特》第一部的篇幅）。若要让这些生成模型持续运行一小时以上，需处理的上下文token更将超过1亿。以当今的计(jì)算(suàn)基(jī)础(chǔ)设(shè)施(shī)来(lái)看(kàn)，这(zhè)种(zhǒng)方(fāng)案(àn)既(jì)不(bù)可(kě)行(xíng)，也(yě)不(bù)具(jù)备(bèi)经(jīng)济(jì)可(kě)行(xíng)性(xìng)。

World Labs认(rèn)为(wèi)，在(zài)人(rén)工(gōng)智(zhì)能(néng)领(lǐng)域，随(suí)着(zhe)计(jì)算(suàn)能(néng)力(lì)提(tí)升(shēng)而(ér)优(yōu)雅(yǎ)扩(kuò)展(zhǎn)的(de)简(jiǎn)单(dān)方(fāng)法(fǎ)往(wǎng)往占据主导地位，因为这些方法能够受益于推动技术发展数十年的计算成本指数级下降趋势。生成式世界模型完全具备优势，将在未来持续降低的计算成本中获益。

这就引出了一个自然的问题：生成式世界模型是否被当今的硬件限制所阻碍？或者现在是否有方法可以预览这项技术？

于是，李飞飞团队设定了一个简单而明确的目标：设计一个高效且可部署的生成式世界模型，能够随着计算能力提升持续扩展。

他们想要构建一个能在单张H100GPU上运行的模型，既能保持交互帧率，又能确保世界数据在长时间互动后依然完整。实现这些条件(jiàn)能(néng)让(ràng)他(tā)们(men)通(tōng)过(guò)当(dāng)前(qián)的(de)体(tǐ)验(yàn)提(tí)前(qián)预(yù)判(pàn)未(wèi)来(lái)这(zhè)些(xiē)模(mó)型(xíng)可(kě)能(néng)达(dá)成(chéng)的(de)高(gāo)度(dù)。

这(zhè)一(yī)目(mù)标(biāo)影(yǐng)响(xiǎng)了(le)他(tā)们(men)从(cóng)任(rèn)务(wu)设(shè)置(zhì)到(dào)模(mó)型(xíng)架(jià)构(gòu)的(de)整(zhěng)个(gè)系统架构设计，并通过仔细优化推理堆栈的所有部分，应用架构设计、模型蒸馏和推理优化方面的最新进展，为在当今硬件上运行的未来模型提供最高保真的预览。

RTFM 对地板上的复杂阴影和反射进行建模

从图像到世界：RTFM如何突破生成式建模的边界

扩展性方面，传统3D图形管线依赖人工设计的显式三维模型（如三角网格、高斯贴图）和算法，对几何、材质、光照等进行精确建模，再渲染为二维图像。该方法虽成熟，但在处理大规模数据时扩展性受限。

而RTFM采用了一种基于生成式视频建模的创新方法，其核心是一个经端到端训练的神经网络。它仅输入场景的二维图像，无需构建显式三维模型，即可从新视角生成对应图像。

该技术基于生成式视频建模，训练一个神经网络将输入图像转换为一种隐式的世界表征（KV缓存），进而通过注意力机制直接从(cóng)该(gāi)表(biǎo)征(zhēng)中(zhōng)读(dú)取(qǔ)信(xìn)息(xi)，来(lái)生(shēng)成(chéng)新(xīn)视(shì)角(jiǎo)下(xià)的(de)连(lián)贯(guàn)图(tú)像(xiàng)。这(zhè)意(yì)味(wèi)着(zhe)复(fù)杂(zá)的(de)光(guāng)照(zhào)、反(fǎn)射(shè)等效果并非由人工规则定义，而是通过从数据中学习自动掌握，从而能够与Marble 实现从单张图像高效创建具有真实感的3D场景。

RTFM还有一个重要特性是模(mó)糊(hu)了(le)重(zhòng)建(jiàn)与(yǔ)生(shēng)成(chéng)的(de)传(chuán)统(tǒng)界(jiè)限(xiàn)：当(dāng)输(shū)入(rù)视(shì)图(tú)充(chōng)足(zú)时(shí)，系(xì)统(tǒng)倾(qīng)向(xiàng)于(yú)精(jīng)确(què)重(zhòng)建(jiàn)；当(dāng)输(shū)入(rù)视(shì)图(tú)稀(xī)疏(shū)时(shí)，它(tā)则(zé)能(néng)进(jìn)行(xíng)合(hé)理(lǐ)的(de)内(nèi)容(róng)推(tuī)演(yǎn)与(yǔ)生(shēng)成(chéng)。

使用 RTFM 渲染的户外游乐场

另外，现实世界具有持久性：当视线移开时，场景不会消失或重置，人们可以随时返回之前的位置。这一特性对自回归帧模型构成了显著挑战。由于此类模型仅通过二维图像帧序列隐式地表示世界，随着探索范围扩大，需要处理(lǐ)的(de)帧(zhèng)数(shù)量持续增长，导致每一帧的生成成本不断累积，模型的“记忆容量”实际上受限于可用的计算资源。

RTFM通过引入“姿态帧”作为空间记忆，有效突破了这一限制。该方法将每一帧与其在三维空间中的姿态绑定，使模型能够在生成新帧时依据目标姿态从已有的空间记忆中检索邻近帧，构建局部上下文。这种设计为模型提供了一个弱空间先验—即世界处于三维欧氏空间中，而无需显式进行几何重建，既降低了建模复杂度，也增强了对场景结构的理解。

为实现高效运行，RTFM采用了上下文调度机制，在不同空间区域生成图(tú)像(xiàng)时(shí)动(dòng)态(tài)切(qiè)换(huàn)所(suǒ)使(shǐ)用(yòng)的(de)上(shàng)下(xià)文帧(zhèng)，称(chēng)为(wèi)“上(shàng)下(xià)文切(qiè)换(huàn)”。这(zhè)一(yī)策(cè)略(è)使(shǐ)模(mó)型(xíng)无(wú)需(xū)在(zài)处(chù)理(lǐ)新(xīn)帧(zhèng)时(shí)加(jiā)载(zài)全部(bù)历(lì)史(shǐ)数(shù)据(jù)，从(cóng)而(ér)支(zhī)持(chí)大规模场景的持久维护，实现所谓“无限持久性”。通过将帧组织为具有空间结构的记忆系统，RTFM在长期交互中能够保持场景一致性，同时显著提升生成效率和可扩展性。

World Labs指出，RTFM展示了在现有硬件上部署高效世界模型的愿景，其技术核心是将世界模型定义为端到端、数据驱动的渲染器。该框架具备良好的扩展性，未来可模拟动态世界并支持用户交互。当前模型目标是在单张H100GPU上实时运行，而更大规模的模型将持续优化性能。

World Labs成立于今年4月，在四个月内从创始公司成长为独角兽。去年9月，World Labs正式宣布完成2.3亿美元的巨额融资，投资方包括硅谷知名投资机构a16z、NEA、加拿大风投公司Radical Ventures，以及英伟达公司的风险投资部门等。众多AI领域的知名人士也参与了投资，包括谷歌DeepMind首席科学家杰夫·迪恩（Jeff Dean）和前谷歌AI研究员杰弗里·辛顿（Geoffrey Hinton）。

上一篇: 2024年全球大气二氧化碳含量创历史新高下一篇: 机器人组团上岗、项目工程数字化，浦东机场的智能制造让国际工程师代表团变身“夸夸团”

相关推荐

MORE>>