Dreamer 4 – DeepMind推出的新型世界模型智能体

智能 PRO 稿源：AI工具集 2025-10-05 09:47

Dreamer 4是什么

Dreamer 4 是由 DeepMind 开发的新型智能体，通过在快速且准确的世界模型中进行想象训练来解决复杂的控制任务。在《我的世界》（Minecraft）游戏中，Dreamer 4 仅使用离线数据就成功获得了钻石，是该领域的一个重要突破。通过在世界模型中进行强化学习来训练行为，无需与环境进行在线交互。在实际应用中（如机器人技术）具有更高的安全性和效率，因为在线交互可能存在安全风险且效率低下。

Dreamer 4 的世界模型基于高效的 Transformer 架构和新的 shortcut forcing objective，能在单个 GPU 上实现实时交互推理。能从少量数据中学习一般动作条件，并且可以从大量未标记的视频中吸收大部分知识。

Dreamer 4的主要功能

通过想象训练解决复杂任务：Dreamer 4 在其快速且准确的世界模型中进行强化学习，解决复杂的控制任务，而无需与环境进行在线交互。这在《我的世界》游戏中表现为仅使用离线数据就成功获得了钻石，展示了其强大的学习能力。
高效实时交互推理：基于高效的 Transformer 架构和新的 shortcut forcing objective，Dreamer 4 的世界模型能在单个 GPU 上实现实时交互推理，在实际应用中具有更高的效率和实用性，尤其是在需要快速响应的场景中。
从少量数据中学习动作条件：Dreamer 4 能从少量标记的动作数据中学习动作条件，可以从大量未标记的视频中吸收大部分知识。为未来从多样化未标记的网络视频中学习通用世界知识铺平了道路，减少了对大量标注数据的依赖。
支持多样化任务和泛化能力：Dreamer 4 的世界模型能学习特定任务，能泛化到未见过的场景和任务。例如，在《我的世界》中，能从仅包含 Overworld 的动作数据中学习，并泛化到 Nether 和 End 等未见过的维度。
提供通用世界知识学习的潜力：Dreamer 4 的设计为未来的研究提供了基础，包括在一般互联网视频上进行预训练、整合长期记忆、语言理解和利用少量在线纠正数据等，推动智能体在更广泛的应用场景中的发展。

Dreamer 4的技术原理

世界模型与想象训练：Dreamer 4通过构建一个能模拟环境动态的世界模型，在该模型内部进行想象训练来学习和优化策略。这种训练方式允许智能体在无需与真实环境进行在线交互的情况下，通过模拟经验来学习复杂的控制任务，提高学习效率和安全性。
高效Transformer架构：采用高效的Transformer架构作为世界模型的基础，架构具备强大的并行计算能力和对长序列数据的处理能力，使模型能高效地处理复杂的视频输入和动作序列，为智能体提供了更准确的环境预测和决策支持。
Shortcut Forcing Objective：引入了一种新的训练目标——Shortcut Forcing Objective，通过在训练过程中强制模型学习更短的推理路径，减少了生成过程中的误差累积，提高了模型的稳定性和生成质量，同时支持快速的交互推理。
掩码自编码与动作条件学习：利用掩码自编码技术来训练Tokenizer，使其能从部分遮蔽的图像中学习到更鲁棒的视觉表示。Dreamer 4能从少量标记的动作数据中学习动作条件，将其泛化到未标记的视频数据，在大规模未标记数据中提取有用信息，扩展了模型的应用范围。
多任务学习与策略优化：通过在世界模型中插入任务输入，Dreamer 4能进行多任务学习，使智能体能根据不同的任务目标调整其策略。利用想象训练中的强化学习来优化策略，进一步提升智能体在复杂任务中的表现，使其能更好地适应不同的环境和任务需求。

Dreamer 4的项目地址

项目官网：https://danijar.com/project/dreamer4/
arXiv技术论文：https://www.arxiv.org/pdf/2509.24527v1

Dreamer 4的应用场景

复杂游戏环境中的智能体训练：在复杂的游戏环境如《我的世界》中，Dreamer 4 仅使用离线数据就成功获得了钻石，展示了其在复杂环境中的学习和决策能力。
机器人技术：Dreamer 4 的世界模型能在单个 GPU 上实现实时交互推理，在机器人技术中具有潜在的应用价值。机器人可以在模拟环境中进行训练，无需与真实环境进行在线交互，提高训练的安全性和效率。
泛化到未见过的场景：Dreamer 4 能从少量标记的动作数据中学习动作条件，并泛化到未见过的场景。在处理新的、未见过的任务时具有一定的适应性，为智能体在动态环境中的应用提供了可能性。
通用世界知识学习：Dreamer 4 的设计为从多样化未标记的网络视频中学习通用世界知识提供了基础。可以应用于需要广泛世界知识的场景，如自动驾驶、智能监控等领域，为智能系统提供更全面的环境理解。
多任务学习和策略优化：Dreamer 4 支持多任务学习，能根据不同的任务目标调整其策略。在需要处理多种任务的场景中具有优势，如智能家居、智能工厂等，能根据不同的任务需求进行灵活调整。

0XU.CN