让具身模型学会“先想后做”！星源智推出400万问答对大规模数据集，训练框架决策性能碾压GPT-5

让 AI 在真实环境中不仅“看懂”世界、还能“做出”决策，这是具身智能的终极目标之一。

然而，现有的具身问答数据集和基准普遍“偏科”：有的聚焦空间理解，有的侧重过程推理，几乎没有哪一个能同时覆盖场景理解、空间推理、任务动态推理和实时决策这四个维度。

北京大学副教授穆亚东及北京大学、星源智团队给出了答案，并提出了一套名为 EQA-Decision 的大规模数据集与 RoboDecision 训练框架。首次将具身问答从静态感知扩展到动态决策，构建了覆盖四大推理模块、超过四百万问答对的大规模数据集，并设计了从监督微调到思维链再到强化学习的三阶段训练方法，让模型真正学会“先想后做、看图决策”。该方案论文《Extending Embodied Question Answering from Perception to Decision》已被全球计算机视觉顶会 CVPR 2026 录用，为具身智能前沿研究提供了新思路。

EQA-Decision：超 400 万问答对，覆盖四大推理维度

EQA-Decision 数据集规模相当可观：超过 400 万对多模态问答数据，涵盖模拟环境、图像问答、第一人称视频和真实机器人轨迹四大来源。

数据被系统性地分为四个核心推理模块：

静态场景构建：关注基本的场景理解任务，包括物体存在性、状态、计数和位置。

空间理解：该模块的空间推理从三个互补视角探索：深度与方向、定位与指代、行动可能性。

任务动态推理：捕捉具身任务中的时间和因果关系：子任务规划、状态跟踪和进度估计。

即时决策：该模块专注于建模机器人在动态具身环境中的实时决策过程。

其中，任务动态推理和即时决策是此前数据集完全没有覆盖的任务类型。这意味着，EQA-Decision 第一次让模型不仅要“看懂”当前状态，还要推演任务进程、预测最优动作。

RoboDecision：三阶段训练，把“看懂”变成“做对”

有了数据集，还需要一个能充分利用它的模型。团队提出的 RoboDecision 以 Qwen3-VL-8B 为基座，设计了一套三阶段渐进式训练 pipeline。

第一阶段：SFT（监督微调）。在 EQA-Decision 的四个模块上均匀采样数据，用 LoRA 微调语言层和融合层，注入具身领域知识。

第二阶段：CoT-SFT（思维链监督微调）。从中抽取约 10%的数据，用 Gemini-2.5-Pro 生成思维链标注（包含推理过程和最终答案），再专门微调。这一步让模型学会“先想后答”，形成显式的多步推理能力。

第三阶段：GRPO（强化学习微调）。这是最关键的一步。团队设计了一个混合奖励函数：

推理奖励：用 E5-large 计算模型生成的推理链与参考思维链的相似度，鼓励因果一致的空间和时间推理。
答案奖励：对自由回答用语义相似度，对结构化输出（坐标、深度等）用规则评分。
视觉一致性奖励：用 OpenCLIP 对齐生成的推理与视觉观察，确保模型不是靠文本先验瞎猜，而是真正“看图说话”。
三个奖励协同作用，迫使模型从“文本驱动的应答器”转变为“感知驱动的决策者”。

实验结果：RoboDecision-8B 全面领先，超越 GPT-5

团队构建了一个包含 2118 条样本的 EQA-Decision Benchmark，覆盖六类任务。结果非常清晰：

RoboDecision-8B 以 68.06 的整体得分大幅领先。对比 Qwen3-VL-8B-Instruct（48.84），提升了近 20 个点；对比 RoboBrain-7B-2.0（37.32），更是接近翻倍。
在指代定位任务上，RoboDecision 得分 68.12，而 Qwen3-VL-8B-Thinking 只有 23.14。差距悬殊的核心原因，正是视觉一致性奖励强制模型把推理锚定在图像像素上。
在即时决策任务上，RoboDecision 得分 69.93，比最强基线（GPT-5 的 62.25）高出 7.7 个点。

图注：EQA-Decision Benchmark 综合成绩对比

图注：RoboDecision 与 Qwen3-VL-8B-Instruct 在六类任务上的差异

此外，团队还在 RoboVQA、ERQA、Where2Place 三个外部基准上验证了泛化能力，RoboDecision 在所有任务上均超过通用模型和具身专用模型。

结语

总之，EQA-Decision 和 RoboDecision 把具身问答从“静态体检”升级为“动态实战”。通过系统性地覆盖场景、空间、时间、决策四个维度，并设计能够显式优化感知-决策链路的训练方法，这项工作为具身智能提供了一个更贴近真实需求的研究范式和数据集。

未来，这类“从感知到决策”的统一数据集和训练框架，很可能会成为具身智能研究的标配。毕竟，一个只会看不会做的 AI，永远无法真正走进物理世界。

创作场景

让具身模型学会“先想后做”！星源智推出 400 万问答对大规模数据集，训练框架决策性能碾压 GPT-5

EQA-Decision：超 400 万问答对，覆盖四大推理维度

RoboDecision：三阶段训练，把“看懂”变成“做对”

实验结果：RoboDecision-8B 全面领先，超越 GPT-5

结语