主题:中科院等顶尖院校:AI实现动手思考式多模态智能基准测试能力突破
这项由中国科学院自动化研究所牵头,联合中国科学院大学、东南大学、南京大学、北京大学、北京航空航天大学、南洋理工大学和加州大学洛杉矶分校共同完成的研究发表于2026年4月,论文编号为arXiv:2604.03016v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
过去,我们让AI看图片就像让一个人站在博物馆门口,只能远远地看看展品的全貌,然后猜测里面有什么宝贝。但现实生活中,人类解决复杂问题时会主动靠近、放大镜观察细节、查阅资料验证信息。研究团队发现,现有的多模态大语言模型评估方法存在严重缺陷:它们只测试AI的"被动观察"能力,却忽视了"主动探索"的重要性。
当前的AI评估就像让学生只看教科书的封面就要求他们回答复杂问题,而不允许他们翻书、做笔记或查阅参考资料。这种评估方式显然无法反映真实世界中解决问题的复杂性。研究团队意识到,真正智能的系统应该像一位经验丰富的侦探,既能仔细观察现场的每个细节(视觉扩展),又能查阅档案寻找相关线索(知识扩展)。
为了填补这个巨大的评估空白,研究团队创建了Agentic-MME基准测试。这个基准测试包含418个真实世界的任务,涵盖6个不同领域,按照3个难度级别精心设计。每个任务都像一个精心设计的谜题,需要AI系统像人类专家一样,主动使用工具来发现隐藏的线索,然后将这些线索与外部知识相结合,最终得出正确答案。
这项研究的突破性在于首次建立了真正的"过程验证"评估体系。传统评估只关心最终答案是否正确,就像只看考试成绩而不关心学生是如何解题的。而Agentic-MME不仅要检查最终答案,还要详细审查AI系统的每一个推理步骤、每一次工具使用是否恰当、每一个中间结果是否有效。研究团队花费了超过2000个小时进行人工标注,平均每个任务需要10多个小时的精心设计和验证,建立了超过2000个逐步检查点。
一、视觉探索与知识整合:AI的"双重身份"
在这个新的评估框架中,AI系统扮演着双重角色。首先是"显微镜观察员"的角色,需要主动操控各种视觉工具来发现图像中的细微线索。这就像一位考古学家面对一幅古画,不仅要看整体构图,还要用放大镜观察笔触细节、用特殊灯光检查隐藏的图层、甚至旋转画作从不同角度寻找线索。
AI系统可以使用13种不同的视觉操作工具,包括裁剪、旋转、翻转、调整对比度、边缘检测等。每种工具都像考古学家工具箱中的专用设备,有着特定的用途。比如裁剪工具可以将注意力集中到图像的关键区域,就像用放大镜观察文物上的铭文;对比度调整可以让模糊的细节变得清晰,如同调节显微镜的焦距。
其次是"图书管理员"的角色,需要通过网络搜索来获取图像内容相关的背景知识。这个过程就像一位研究员在大图书馆中查阅资料,不仅要知道如何搜索关键词,还要知道如何验证信息的可靠性,如何将不同来源的信息进行交叉对比。
AI系统配备了4种知识扩展工具:谷歌文本搜索、谷歌图片反向搜索、网页内容获取和图片下载。这些工具让AI系统能够像人类研究者一样,根据视觉线索进行有针对性的信息检索。
真正的挑战在于这两个角色需要无缝协作。AI系统必须像一位经验丰富的侦探,先通过视觉工具发现线索,然后用这些线索去搜索相关信息,再用搜索到的信息指导进一步的视觉探索。这种iterative的过程需要AI系统具备高度的规划能力和灵活的问题解决策略。
二、三个难度层级:从简单观察到复杂推理
研究团队将任务按照复杂程度分为三个层级,就像游戏中的初级、中级和专家模式。
第一级别是"单步视觉操作",相当于让AI完成一个简单的视觉任务。比如在一张超市货架的照片中,某个商品的价格标签可能因为拍摄角度而显得很小,AI需要准确地裁剪出价格标签区域并放大,然后读取价格信息。这个层级测试AI是否具备基本的视觉工具使用能力,就像测试一个人是否会正确使用放大镜。
第二级别是"多步骤工作流程",需要AI系统将视觉操作与知识搜索结合起来。举个例子,AI看到一张建筑物的照片,需要先通过视觉工具识别出建筑物上的标识,然后通过网络搜索查找这个建筑的相关信息,最后回答关于该建筑历史或用途的问题。这个层级测试AI是否能够进行简单的跨模态推理,类似于让一个人既要观察又要查阅资料。
第三级别是"高级协同问题解决",这是最具挑战性的任务类型。这类任务往往包含模糊的视觉线索,需要AI系统进行假设-验证循环。比如,AI面对一个极其模糊的商标图像,需要先尝试通过图像处理技术提取可能的特征,然后基于这些不完整的信息进行多次搜索尝试,每次搜索的结果都会为下一轮视觉分析提供指导,直到最终确定这个模糊商标的真实身份。这个层级真正测试AI的综合推理能力,就像要求一位专家解决现实世界中最复杂的问题。
特别有趣的是,研究团队在设计第三级别任务时采用了"模型在环后向设计"的方法。他们先让最先进的AI模型观察原始图像并描述其内容,然后专门挑选模型遗漏或错误描述的细节作为关键线索。这样确保了任务确实需要主动的视觉工具使用,而不能仅仅通过被动观察来解决。
三、革命性的过程验证体系
传统的AI评估就像只看学生考试的最终得分,而不关心他们是如何解题的。这种评估方式存在严重问题:AI系统可能因为"运气好"而猜对答案,也可能因为一个小错误而全功尽弃,尽管它的整体推理过程是正确的。
Agentic-MME引入了双轴过程验证体系,这是该研究最重要的创新之一。这个体系就像两个专门的审查员,分别从不同角度检查AI系统的每一个操作步骤。
S轴审查员专门负责检查"策略和工具执行"。它会仔细审查AI系统是否在正确的时机使用了正确的搜索策略。比如,当任务要求识别一个模糊的建筑物时,S轴审查员会检查AI系统是否提取了合适的搜索关键词、是否访问了相关的网页、是否从搜索结果中获得了预期的信息。这个过程就像检查一位研究员的文献检索过程是否专业和有效。
V轴审查员则专门负责检查"视觉证据验证"。它不仅要确认AI系统是否使用了视觉工具,更重要的是要验证这些工具生成的中间图像是否真正包含了所需的视觉信息。比如,如果AI系统声称它裁剪了包含价格信息的区域,V轴审查员会实际检查这个裁剪结果,确认价格信息是否清晰可读。这个过程就像实验室中的同行评议,要求提供可验证的证据。
为了实现这种细致的过程验证,研究团队建立了超过2000个检查点,平均每个任务包含5个以上的中间验证步骤。每个检查点都配有详细的人工标注,包括预期的操作意图、应该生成的中间结果,以及用于验证的具体问题和标准答案。这种详细程度前所未有,相当于为每个任务创建了一份详细的"标准作业程序"。
更进一步,研究团队还引入了"过度思考"惩罚机制。这个机制会比较AI系统的解题步骤数量与人类专家的最优解题路径,对那些进行了过多冗余操作的系统进行扣分。这就像在考试中不仅要求答案正确,还要求解题过程简洁高效。
四、统一评估框架:兼容不同的AI系统
现实中的AI系统就像来自不同厂商的智能手机,虽然功能类似,但操作方式可能完全不同。有些AI系统擅长编写代码来处理图像,有些则更适合使用预定义的工具接口。为了公平比较这些不同类型的系统,研究团队开发了一个统一的评估框架。
这个框架支持两种主要的交互模式。第一种是"代码生成模式",AI系统可以编写Python代码来处
回帖(3):全部回帖(3)»