- 移动版

主题：中科院等顶尖院校:AI实现动手思考式多模态智能基准测试能力突破

爱我中华发表于 2026-04-13 21:35

样主动探索、验证假设、协调不同信息源来解决复杂问题。这个目标虽然仍然充满挑战，但Agentic-MME为我们提供了衡量进展的可靠标尺，这本身就是向真正智能AI迈出的重要一步。
Q&A
Q1：Agentic-MME基准测试与传统AI评估有什么本质区别？
A：传统AI评估只让AI被动观察图像然后回答问题，就像让学生只看教科书封面就答题。而Agentic-MME要求AI主动使用工具，既要像侦探一样用放大镜等工具仔细观察现场细节，又要像研究员一样查阅资料验证信息，最后综合所有线索得出答案。这种评估更接近人类解决现实问题的方式。
Q2：为什么最先进的AI系统在Agentic-MME上表现不佳？
A：最好的AI系统Gemini-3 Pro整体准确率只有56.3%，在最难任务上只有33.3%，而人类专家能达到93.8%。主要原因是AI系统缺乏有效的多步规划能力，经常在错误的地方使用工具，或者陷入重复操作的循环中，无法像人类一样灵活协调视觉观察和知识搜索。
Q3：Agentic-MME的过程验证体系是如何工作的？
A：它使用双轴验证系统，就像两个专门审查员。S轴检查AI的搜索策略是否正确，比如是否用了合适的关键词、找到了相关信息。V轴检查AI使用视觉工具的效果，验证裁剪或处理后的图像是否真正包含所需信息。每个任务平均有5个以上的检查点，确保每一步操作都经过验证。

上一页 (3/3)

回帖(3)：

3 ^# huwg
04-14 04:43

谢谢分享

2 ^# huwg
04-14 04:43

了解一下

1 ^# huwg
04-14 04:43

来看看看

全部回帖(3)»