- 移动版

主题：中科院等顶尖院校:AI实现动手思考式多模态智能基准测试能力突破

爱我中华发表于 2026-04-13 21:35

理图像，就像一个程序员面对问题时会编写定制化的解决方案。第二种是"原子工具模式"，AI系统通过调用预定义的函数来完成任务，就像使用标准化的工具箱。
为了确保公平比较，研究团队开发了复杂的标准化机制。对于代码生成模式，他们使用抽象语法树分析技术，可以从AI系统生成的各种风格的代码中提取出标准化的操作序列。这就像有一位专业的翻译员，能够将不同编程风格的代码翻译成统一的操作描述。
对于原子工具模式，框架提供了13种视觉操作工具和4种知识检索工具的标准接口。每个工具都有详细的参数规范和使用说明，确保不同的AI系统都能正确理解和使用这些工具。
更重要的是，评估框架还处理了许多技术细节问题。比如，不同AI系统生成的图像可能采用不同的文件格式或命名约定，框架会自动进行标准化处理。对于网络搜索结果，框架支持缓存和重放功能，确保相同的搜索查询总是返回一致的结果，避免因网络内容变化而影响评估的一致性。
五、令人意外的实验结果
研究团队对多个最先进的AI系统进行了全面测试，结果让人大开眼界。即使是目前表现最好的AI系统，在这个新的评估标准下也显得相当"笨拙"。
最优秀的AI系统Gemini-3 Pro在整体任务中只达到了56.3%的准确率，而在最困难的第三级别任务中，准确率骤降至33.3%。这个结果特别有意思，因为同样是Gemini-3 Pro，在传统的被动观察模式下，第一级别任务能达到42.9%的准确率，但在第三级别任务中只有7.5%。这说明工具的使用确实能显著提升AI的问题解决能力，但距离人类水平还有很大差距。人类专家在相同任务上的平均准确率达到了93.8%，即使在最困难的第三级别任务中也能保持82.3%的高准确率。
更有趣的是开源AI系统与闭源商业系统之间的巨大差距。开源系统如Qwen3 VL-235B在第三级别任务中的准确率只有10.1%，而一些开源系统甚至在搜索策略方面几乎完全失败，S轴得分低于5%。这表明当前开源AI系统虽然能够学会调用工具，但在复杂的多步推理和搜索规划方面还需要大幅改进。
研究团队还发现了一个反直觉的现象：结构化的工具接口（原子工具模式）普遍比代码生成模式表现更好。这可能是因为代码生成对AI系统提出了更高的认知要求：不仅要理解问题，还要处理编程语法、管理文件输入输出、处理错误恢复等技术细节。但代码生成模式也展现出独特优势：它可以进行任意复杂的操作组合，不受预定义工具的限制。
另一个值得注意的发现是AI系统在工具使用方面的"急躁"行为。许多AI系统频繁调用视觉工具，但生成的中间结果往往质量很差。比如，某个AI系统可能会正确地识别需要裁剪某个区域，但实际裁剪的位置完全错误，导致浪费了交互次数却没有获得有用信息。
六、细致的错误分析揭示关键瓶颈
研究团队对AI系统的失败案例进行了详细分析，发现了七种主要的错误模式，就像医生诊断病人时要区分不同的病因一样。
最常见的问题是"行动消极"，占所有错误的约50%。这类AI系统面对需要主动操作的任务时，往往选择直接从原始图像猜测答案，而不愿意使用可用的工具。这就像一个学生面对开卷考试时，明明可以查阅资料，却坚持凭记忆答题。
第二常见的问题是"过度思考陷阱"，特别影响那些较为先进的AI系统。这些系统会陷入重复的工具调用循环中，不断尝试相似的操作，却无法从中间结果中学习和调整策略。这种行为类似于一个人在解谜时，明明已经尝试了某种方法不可行，却反复尝试相似的方法。
第三个重要问题是"不忠实的工具使用"。AI系统虽然会调用工具，但调用方式不当，比如裁剪了错误的区域或使用了不合适的图像处理参数。这就像一个人知道要使用放大镜，却把放大镜放在了错误的位置。
有趣的是，不同难度级别的任务展现出不同的错误模式分布。在简单任务中，"行动消极"是主要问题；而在复杂任务中，"搜索策略失误"和"工具使用不当"变得更加突出。这表明AI系统在不同认知负荷下会表现出不同类型的局限性。
研究团队还发现，代码生成模式容易出现"工具执行错误"，比如语法错误、运行时异常等低层次问题。而原子工具模式则更多地在高层次规划方面出现问题。这个对比提供了关于如何改进不同类型AI系统的重要洞察。
七、验证研究的严谨性
为了确保这项基准测试真正有效，研究团队进行了多项验证实验，就像药物试验需要对照组一样严谨。
首先，他们测试了图像内容是否是任务解决的必要条件。当研究团队移除所有图像，只保留文字问题时，AI系统的准确率几乎降至零（最好的系统也只有不到3%的准确率）。这证明任务确实需要视觉信息，不存在"数据泄露"问题。
接着，他们验证了主动工具使用的必要性。研究团队比较了四种设置：纯被动观察、仅使用图像工具、仅使用搜索工具，以及同时使用两类工具。结果显示，在最困难的任务中，仅使用图像工具甚至会降低性能，仅使用搜索工具只能带来微小改进，但两者结合使用时效果显著提升。这证明了任务设计的合理性：真正困难的问题确实需要视觉操作与知识搜索的协同作用。
研究团队还进行了"神谕指导"实验，这是一个特别巧妙的验证方法。他们逐步向AI系统提供人工标注的中间结果，观察性能如何改善。结果显示，当提供正确的中间视觉证据时，AI系统性能有所改善；当进一步提供完整的步骤指导时，性能大幅提升。但即使在这种"开挂"模式下，AI系统在最困难任务上的表现仍然没有接近完美，这说明连续执行和规划仍然是重大挑战。
为了验证评估的一致性，研究团队使用了三个不同的AI裁判系统，并与人类专家的评估进行了对比。结果显示各个评估者之间的一致性很高，这证明了评估方法的可靠性。
八、对AI发展的深远影响
这项研究不仅提供了一个新的评估工具，更重要的是揭示了当前AI系统的根本性局限。传统评估就像只测试学生的阅读理解能力，而忽视了他们的动手实践和资料检索能力。Agentic-MME的出现，就像为AI评估引入了实验课和开卷考试，更全面地反映了智能系统在现实世界中的能力。
研究结果表明，尽管当前的大语言模型在知识储备方面已经相当丰富，但在主动问题解决和工具协调使用方面还存在显著不足。这个发现对AI发展方向具有重要指导意义：仅仅增加模型参数和训练数据可能不足以实现真正的智能，还需要专门训练模型的规划能力、工具使用技巧和多步推理能力。
特别值得注意的是开源AI系统与商业系统之间的巨大差距。这表明简单的模型架构复制可能无法达到先进系统的性能水平，还需要在训练方法、数据处理和系统优化等方面进行深入研究。
这项研究还为AI系统的训练提供了新的思路。传统的AI训练主要关注最终答案的正确性，而过程验证体系表明，训练AI系统的中间推理步骤可能同样重要。未来的AI训练可能需要更多地关注"如何思考"而不仅仅是"思考什么"。
研究团队公开了完整的数据集、评估工具和基准测试代码，这为整个AI研究社区提供了宝贵的资源。这种开放式的研究方法将加速相关领域的发展，帮助研究者更好地理解和改进AI系统的多模态推理能力。
说到底，这项研究就像为AI系统设立了一面更准确的镜子，让我们看清现有技术的真实水平。虽然结果显示AI系统距离人类水平还有很大差距，但这恰恰为未来的研究指明了方向。正如研究团队所指出的，真正的多模态智能不仅要能看懂图像和理解语言，更要能像人类专家一

回帖(3)：

3 ^# huwg
04-14 04:43

谢谢分享

2 ^# huwg
04-14 04:43

了解一下

1 ^# huwg
04-14 04:43

来看看看

全部回帖(3)»