CombatVLA – 淘天集团推出的3D动作游戏专用VLA模型

智能 2025-08-20 15:11

声明：该文章来自（AI工具集）版权由原作者所有，K2OS渲染引擎提供网页加速服务。

CombatVLA 是淘天集团未来生活实验室团队推出的专为3D动作角色扮演游戏（ARPG）中的战斗任务设计的高效视觉-语言-动作（VLA）模型。模型基于3B参数规模，通过动作追踪器收集的视频动作对进行训练，数据格式化为“动作思维”（AoT）序列。模型用三阶段渐进式学习范式，从视频级到帧级再到截断策略，实现高效推理。CombatVLA 在战斗理解基准测试中超越现有模型，推理速度提升50倍，任务成功率高于人类玩家。

CombatVLA的主要功能

高效战斗决策：CombatVLA 能在复杂的3D游戏环境中实时做出战斗决策，包括躲避攻击、发动技能、恢复生命值等，决策速度比传统模型快50倍。
战斗理解与推理：CombatVLA 能评估敌人的状态、判断敌人的攻击意图，推理出最优的战斗动作，战斗理解能力显著优于其他模型。
动作指令生成：模型能输出具体可执行的键鼠操作指令，例如按下特定按键或执行鼠标操作，控制游戏角色进行战斗。
泛化能力：在不同难度的任务和不同游戏中，CombatVLA 均展现出较强的泛化能力，在未见过的游戏场景中能有效执行战斗任务。

CombatVLA的技术原理

动作追踪器：基于动作追踪器收集人类玩家的游戏操作数据，包括键盘和鼠标操作，同步截取游戏画面，生成视频动作对数据。
动作思维（AoT）序列：将收集到的数据转化为“动作思维”（Action-of-Thought）序列，每个动作都附带详细解释，帮助模型理解动作的语义和逻辑。
三阶段渐进式学习：