首页| 论坛| 搜索| 消息
主题:中科院等顶尖院校:AI实现动手思考式多模态智能基准测试能力突破
爱我中华发表于 2026-04-13 21:35
样主动探索、验证假设、协调不同信息源来解决复杂问题。这个目标虽然仍然充满挑战,但Agentic-MME为我们提供了衡量进展的可靠标尺,这本身就是向真正智能AI迈出的重要一步。
Q&A
Q1:Agentic-MME基准测试与传统AI评估有什么本质区别?
A:传统AI评估只让AI被动观察图像然后回答问题,就像让学生只看教科书封面就答题。而Agentic-MME要求AI主动使用工具,既要像侦探一样用放大镜等工具仔细观察现场细节,又要像研究员一样查阅资料验证信息,最后综合所有线索得出答案。这种评估更接近人类解决现实问题的方式。
Q2:为什么最先进的AI系统在Agentic-MME上表现不佳?
A:最好的AI系统Gemini-3 Pro整体准确率只有56.3%,在最难任务上只有33.3%,而人类专家能达到93.8%。主要原因是AI系统缺乏有效的多步规划能力,经常在错误的地方使用工具,或者陷入重复操作的循环中,无法像人类一样灵活协调视觉观察和知识搜索。
Q3:Agentic-MME的过程验证体系是如何工作的?
A:它使用双轴验证系统,就像两个专门审查员。S轴检查AI的搜索策略是否正确,比如是否用了合适的关键词、找到了相关信息。V轴检查AI使用视觉工具的效果,验证裁剪或处理后的图像是否真正包含所需信息。每个任务平均有5个以上的检查点,确保每一步操作都经过验证。
上一页  (3/3)
回帖(3):
3 # huwg
04-14 04:43
谢谢分享
2 # huwg
04-14 04:43
了解一下
1 # huwg
04-14 04:43
来看看看

全部回帖(3)»
最新回帖
收藏本帖
发新帖