重新思考人工智能评估:传统基准为何不足

2026-03-31 · MIT Tech Review AI · 原文链接

多年来,人工智能的有效性一直是基于其超越人类能力的能力进行评估。无论是在象棋、复杂数学、编程还是写作方面,AI系统都与个体人类在特定任务中的表现进行比较。这种观点吸引人,因为它将比较简化为明确的场景。然而,这种评估方法越来越被视为无法捕捉AI真正潜力的不足。随着我们向前发展,迫切需要制定新的基准,以反映AI技术及其在现实世界中应用的多面性。更全面的方法将确保我们准确衡量AI的影响,并促进其以造福社会的方式发展。