首页| 论坛| 搜索| 消息
主题:中科院等顶尖院校:AI实现动手思考式多模态智能基准测试能力突破
爱我中华发表于 2026-04-13 21:35
理图像,就像一个程序员面对问题时会编写定制化的解决方案。第二种是"原子工具模式",AI系统通过调用预定义的函数来完成任务,就像使用标准化的工具箱。
为了确保公平比较,研究团队开发了复杂的标准化机制。对于代码生成模式,他们使用抽象语法树分析技术,可以从AI系统生成的各种风格的代码中提取出标准化的操作序列。这就像有一位专业的翻译员,能够将不同编程风格的代码翻译成统一的操作描述。
对于原子工具模式,框架提供了13种视觉操作工具和4种知识检索工具的标准接口。每个工具都有详细的参数规范和使用说明,确保不同的AI系统都能正确理解和使用这些工具。
更重要的是,评估框架还处理了许多技术细节问题。比如,不同AI系统生成的图像可能采用不同的文件格式或命名约定,框架会自动进行标准化处理。对于网络搜索结果,框架支持缓存和重放功能,确保相同的搜索查询总是返回一致的结果,避免因网络内容变化而影响评估的一致性。
五、令人意外的实验结果
研究团队对多个最先进的AI系统进行了全面测试,结果让人大开眼界。即使是目前表现最好的AI系统,在这个新的评估标准下也显得相当"笨拙"。
最优秀的AI系统Gemini-3 Pro在整体任务中只达到了56.3%的准确率,而在最困难的第三级别任务中,准确率骤降至33.3%。这个结果特别有意思,因为同样是Gemini-3 Pro,在传统的被动观察模式下,第一级别任务能达到42.9%的准确率,但在第三级别任务中只有7.5%。这说明工具的使用确实能显著提升AI的问题解决能力,但距离人类水平还有很大差距。人类专家在相同任务上的平均准确率达到了93.8%,即使在最困难的第三级别任务中也能保持82.3%的高准确率。
更有趣的是开源AI系统与闭源商业系统之间的巨大差距。开源系统如Qwen3 VL-235B在第三级别任务中的准确率只有10.1%,而一些开源系统甚至在搜索策略方面几乎完全失败,S轴得分低于5%。这表明当前开源AI系统虽然能够学会调用工具,但在复杂的多步推理和搜索规划方面还需要大幅改进。
研究团队还发现了一个反直觉的现象:结构化的工具接口(原子工具模式)普遍比代码生成模式表现更好。这可能是因为代码生成对AI系统提出了更高的认知要求:不仅要理解问题,还要处理编程语法、管理文件输入输出、处理错误恢复等技术细节。但代码生成模式也展现出独特优势:它可以进行任意复杂的操作组合,不受预定义工具的限制。
另一个值得注意的发现是AI系统在工具使用方面的"急躁"行为。许多AI系统频繁调用视觉工具,但生成的中间结果往往质量很差。比如,某个AI系统可能会正确地识别需要裁剪某个区域,但实际裁剪的位置完全错误,导致浪费了交互次数却没有获得有用信息。
六、细致的错误分析揭示关键瓶颈
研究团队对AI系统的失败案例进行了详细分析,发现了七种主要的错误模式,就像医生诊断病人时要区分不同的病因一样。
最常见的问题是"行动消极",占所有错误的约50%。这类AI系统面对需要主动操作的任务时,往往选择直接从原始图像猜测答案,而不愿意使用可用的工具。这就像一个学生面对开卷考试时,明明可以查阅资料,却坚持凭记忆答题。
第二常见的问题是"过度思考陷阱",特别影响那些较为先进的AI系统。这些系统会陷入重复的工具调用循环中,不断尝试相似的操作,却无法从中间结果中学习和调整策略。这种行为类似于一个人在解谜时,明明已经尝试了某种方法不可行,却反复尝试相似的方法。
第三个重要问题是"不忠实的工具使用"。AI系统虽然会调用工具,但调用方式不当,比如裁剪了错误的区域或使用了不合适的图像处理参数。这就像一个人知道要使用放大镜,却把放大镜放在了错误的位置。
有趣的是,不同难度级别的任务展现出不同的错误模式分布。在简单任务中,"行动消极"是主要问题;而在复杂任务中,"搜索策略失误"和"工具使用不当"变得更加突出。这表明AI系统在不同认知负荷下会表现出不同类型的局限性。
研究团队还发现,代码生成模式容易出现"工具执行错误",比如语法错误、运行时异常等低层次问题。而原子工具模式则更多地在高层次规划方面出现问题。这个对比提供了关于如何改进不同类型AI系统的重要洞察。
七、验证研究的严谨性
为了确保这项基准测试真正有效,研究团队进行了多项验证实验,就像药物试验需要对照组一样严谨。
首先,他们测试了图像内容是否是任务解决的必要条件。当研究团队移除所有图像,只保留文字问题时,AI系统的准确率几乎降至零(最好的系统也只有不到3%的准确率)。这证明任务确实需要视觉信息,不存在"数据泄露"问题。
接着,他们验证了主动工具使用的必要性。研究团队比较了四种设置:纯被动观察、仅使用图像工具、仅使用搜索工具,以及同时使用两类工具。结果显示,在最困难的任务中,仅使用图像工具甚至会降低性能,仅使用搜索工具只能带来微小改进,但两者结合使用时效果显著提升。这证明了任务设计的合理性:真正困难的问题确实需要视觉操作与知识搜索的协同作用。
研究团队还进行了"神谕指导"实验,这是一个特别巧妙的验证方法。他们逐步向AI系统提供人工标注的中间结果,观察性能如何改善。结果显示,当提供正确的中间视觉证据时,AI系统性能有所改善;当进一步提供完整的步骤指导时,性能大幅提升。但即使在这种"开挂"模式下,AI系统在最困难任务上的表现仍然没有接近完美,这说明连续执行和规划仍然是重大挑战。
为了验证评估的一致性,研究团队使用了三个不同的AI裁判系统,并与人类专家的评估进行了对比。结果显示各个评估者之间的一致性很高,这证明了评估方法的可靠性。
八、对AI发展的深远影响
这项研究不仅提供了一个新的评估工具,更重要的是揭示了当前AI系统的根本性局限。传统评估就像只测试学生的阅读理解能力,而忽视了他们的动手实践和资料检索能力。Agentic-MME的出现,就像为AI评估引入了实验课和开卷考试,更全面地反映了智能系统在现实世界中的能力。
研究结果表明,尽管当前的大语言模型在知识储备方面已经相当丰富,但在主动问题解决和工具协调使用方面还存在显著不足。这个发现对AI发展方向具有重要指导意义:仅仅增加模型参数和训练数据可能不足以实现真正的智能,还需要专门训练模型的规划能力、工具使用技巧和多步推理能力。
特别值得注意的是开源AI系统与商业系统之间的巨大差距。这表明简单的模型架构复制可能无法达到先进系统的性能水平,还需要在训练方法、数据处理和系统优化等方面进行深入研究。
这项研究还为AI系统的训练提供了新的思路。传统的AI训练主要关注最终答案的正确性,而过程验证体系表明,训练AI系统的中间推理步骤可能同样重要。未来的AI训练可能需要更多地关注"如何思考"而不仅仅是"思考什么"。
研究团队公开了完整的数据集、评估工具和基准测试代码,这为整个AI研究社区提供了宝贵的资源。这种开放式的研究方法将加速相关领域的发展,帮助研究者更好地理解和改进AI系统的多模态推理能力。
说到底,这项研究就像为AI系统设立了一面更准确的镜子,让我们看清现有技术的真实水平。虽然结果显示AI系统距离人类水平还有很大差距,但这恰恰为未来的研究指明了方向。正如研究团队所指出的,真正的多模态智能不仅要能看懂图像和理解语言,更要能像人类专家一
下一页上一页  (2/3)
回帖(3):
3 # huwg
04-14 04:43
谢谢分享
2 # huwg
04-14 04:43
了解一下
1 # huwg
04-14 04:43
来看看看

全部回帖(3)»
最新回帖
收藏本帖
发新帖