CVPR 2025 | ECBench:统一静态、动态与幻觉场景的机器人认知评测体系

     分类 [Ai资讯]
2025/6/12 11:03:57 浏览量  1850 喜欢  45
导读:ECEval混合评估框架,将开放性问题判准率提升17.3%,建立可信评测标准。

CVPR 2025 | ECBench:统一静态、动态与幻觉场景的机器人认知评测体系

项目简介

尽管已有方法如客户端正则化(FedProx、SCAFFOLD)、服务器聚合优化(FedOPT、FedDF)和数据增强策略(FedMix、FedFA)在缓解数据异质性方面取得了一定进展,但它们大多依赖局部信息或过于理想的分布假设,难以在复杂非IID场景中稳定泛化。

 
在人工智能技术飞速发展的今天,大型语言模型虽已展现出惊人的对话能力,但当它们真正"走进"物理世界时,却面临着意想不到的认知障碍。
 
想象一下:一个家庭服务机器人可能准确识别厨房里的刀具,却无法回答"你是否在冰箱前驻足过?"这样的基础问题;面对电视屏幕突然切换的画面,它也难以执行"把电视屏幕恢复到我离开屋子之前的频道"这类动态指令。这正是当前具身智能研究的核心痛点——现有的AI测评体系如同"纸上谈兵",缺乏对物理世界复杂场景的系统评估。
 
为此,阿里巴巴达摩院多模态研究团队推出ECBench评测基准,将静态场景、动态场景与幻觉问题三大维度纳入统一框架,通过4300多个涵盖空间推理、轨迹回溯等30项精细能力的测试问题,为AI装上"空间感知"和"自我意识"的导航仪。"
 
CVPR 2025 | ECBench:统一静态、动态与幻觉场景的机器人认知评测体系
图1:ECBench提出以机器人为中心的物理世界认知体系
 
论文地址:
https://arxiv.org/abs/2501.05031
代码:
https://github.com/alibaba-damo-academy/ECBench
项目主页:
https://rh-dang.github.io/ECBench/
数据集:
https://huggingface.co/datasets/DAMOEC/ECBench

 

当视觉语言模型撞上物理世界

 

 

在厨房里,一个配备GPT-4o的机器人能流利解释菜谱,却对“灶台左侧第三个抽屉里是否有备用刀具”这样的空间推理问题束手无策;在动态办公场景中,它虽然能识别投影仪开关状态,却无法执行“将屏幕恢复到十分钟前会议初始界面”这类时空回溯指令。这些看似简单的任务,暴露了当前大型视觉语言模型(LVLMs)在物理世界认知中的根本缺陷。

 

通过对OpenEQA、ScanQA等主流评测基准的深度分析,研究团队揭示了四大认知壁垒(表1):

 

  1. 系统断层:现有测试如同散落拼图,缺乏从低到高的层级化评估体系。
  2. 自我意识缺失:当前所有的主流测试问题均采用第三人称视角,忽视以机器人本体为中心的空间定位等核心需求。
  3. 动态盲区:90%的现有数据集基于静态场景假设,无法检验时空连续体中的认知连贯性。
  4. 三维幻觉:在反常识场景中(如牙刷出现在灶台旁),主流模型错误率高达90%。
 
CVPR 2025 | ECBench:统一静态、动态与幻觉场景的机器人认知评测体系

表1:ECBench相比主流评测基准的优势

 

ECBench:打开具身认知的「三维罗盘」

 

2.1 三大认知维度重构评测体系

 

CVPR 2025 | ECBench:统一静态、动态与幻觉场景的机器人认知评测体系

 

ECBench构建了覆盖静态场景-动态场景-幻觉场景的立体评估框架,其特点体现在:

 

1、视频采集:既包含真实场景,也包含虚拟场景。既包含RGB视频,也包含深度图序列。
 
2、评测体系构建:
 

静态场景:

 
  • 提出以机器人为中心认知测试集,包含轨迹回溯、本体定位等19项能力;
  • 引入“历史-当下-未来”三维时空评价体系,并要求模型理解自身行动对环境的影响。
     

动态场景:

 

  • 设计了空间动态、信息动态、数量动态、状态动态四类开放世界任务。
 

幻觉场景:

 
  • 划分常识过度依赖与指令过度信任两大风险类别;
  • 设置四类反直觉场景,充分考验视觉语言模型尊重物理现实的能力。
 
3、问答对构建

 

为了保证问答数据的准确性与全面性,此团队采用全手工标注的方法,且标注人员全部是具身智能与计算机视觉领域的研究专家。ECBench包含30种认知能力,如果使用传统的逐视频标注方法,会导致严重的类别失衡。因此,此团队采用了逐类别标注方式,确保了普通能力与稀有能力问答对数量的平衡。

 
4、数据淬火:锻造纯净视觉认知测试集
 
在完成全部数据标注后,研究团队启动了「常识净化」工程。面对大语言模型普遍存在的"常识依赖症"——即便没有视觉输入也能凭借海量先验知识作答的顽疾,ECBench设计三级过滤机制:
 
  1. GPT-4o压力测试:让模型在「盲测」状态下连续六轮回答所有问题,暴露那些仅凭常识就能破解的题目;
  2. 人工语义手术:对通过率超过83%的问题进行针对性改造,注入必须依赖视觉线索的关键细节;
  3. 三重迭代验证:经过三轮筛选优化后,最终通过交叉验证确保每个QA对的视觉依赖性。

 

这套方法论如同为数据集安装上"视觉过滤器",使常识性问题的占比从初版的37%降至9.2%。正如团队在论文中揭示的:"当我们用AI最擅长的武器来攻克AI自身的弱点,得到的不仅是更纯净的数据,更是打开视觉认知黑箱的解码器。"最终成型的4324组QA对,从静态环境理解到动态场景追踪,全方位检测语言模型的具身智能水平。

 

2.2 具身认知的「多元宇宙」测试场
 
CVPR 2025 | ECBench:统一静态、动态与幻觉场景的机器人认知评测体系

 

1、视频数据构成:多源融合的视觉库

 

ECBench数据集整合386段RGBD室内场景视频,包含三大来源:

 

  1. 真实场景数据:191段精选自ScanNet(140段)与MultiScan(51段)的高信息密度场景,覆盖厨房操作、楼梯间等复杂空间;
  2. 虚拟环境数据:111段HM3D虚拟环境中的第一视角任务记录,包含49段问答智能体探索视频与62段目标导航路径数据;
  3. 特殊场景库:84段自主采集视频,包括44个反常识场景(如牙刷放置在灶台旁)和40个动态场景(如实时变化的电子屏幕)。

 

这些视频涵盖12类室内环境类型,除常见居住空间外,特别纳入娱乐室、设备间等低频场景,构建起多维度环境适应力测试平台。

 

2、问答体系设计:系统性能力评估框架

 

数据集核心包含4,324组结构化问答对,实现三大技术创新:

 
  1. 问题复杂度提升:平均问题长度达16.88词,专业词汇量扩展至4,513个,较OpenEQA提升2.6倍语义复杂度;
  2. 评估维度拓展:新增534组幻觉场景测试与248组动态场景任务,建立时空连续性评估标准;
  3. 系统化架构:通过19项静态能力、4类动态维度、7种幻觉类型的评估矩阵,形成层次化认知评估体系。

 

实验验证:揭示视觉语言模型的具身认知边界

 

 

CVPR 2025 | ECBench:统一静态、动态与幻觉场景的机器人认知评测体系

 

核心模型表现

 

基于ECBench基准,研究团队对8类主流视觉语言模型(LVLMs)进行系统评测:

 
  1. 闭源模型优势显著:GPT-4o以50.35分领跑,相较开源多模态模型(Qwen2VL-72B)提升12.8%,较开源视频模型(LongVA)提升24.4%;
  2. 动态场景普遍薄弱:所有模型在动态场景得分均低于24.52,其中数量动态任务表现最差(InternVL2-40B出现零分案例);
  3. 专业模型未达预期:专为具身场景设计的AlanaVLM和GeLM分别仅获34.75和21.54分,暴露领域适应性缺陷。

 

评估方法创新

 

CVPR 2025 | ECBench:统一静态、动态与幻觉场景的机器人认知评测体系

 

ECEval混合评估框架展现独特优势:

 

  1. 开放性问题采用0.5分参考答案引导的多级评分,使GPT-4o评分偏差降低30%;
  2. 封闭性问题使用二元判定,避免语义一致但表述差异导致的误判;
  3. 综合评估准确率较传统方法提升17.3%,特别是在动态场景评估中差异显著。

 

上述实验结果证实,现有视觉语言模型在时空连续性理解、自我意识构建、幻觉场景识别等方面仍存在系统性缺陷,为下一代具身智能模型的架构设计指明突破方向。

 

总结:构建具身智能三维评测体系

 

 

ECBench作为融合静态场景、动态场景与幻觉检测的具身认知评测体系,通过30项精细认知任务构建起具身智能的「能力坐标轴」。

 

实验揭示:当前主流模型在机器人为中心的感知、动态场景理解以及反直觉信息识别等核心场景存在系统性缺陷。研究团队同步研发的ECEval混合评估框架,将开放性问题判准率提升17.3%,建立可信评测标准。这项工作希望能绘制出现有技术的认知边界,为具身智能迈向复杂物理世界提供导航图——当机器开始理解自身与环境的时空关系,真正意义上的智能体革命即将到来。

 

 

标签

微信扫一扫,分享到朋友圈

微信公众号

相关推荐