重新思考人工智能评估：传统基准为何不足

2026-03-31 · MIT Tech Review AI · 原文链接

多年来，人工智能的有效性一直是基于其超越人类能力的能力进行评估。无论是在象棋、复杂数学、编程还是写作方面，AI系统都与个体人类在特定任务中的表现进行比较。这种观点吸引人，因为它将比较简化为明确的场景。然而，这种评估方法越来越被视为无法捕捉AI真正潜力的不足。随着我们向前发展，迫切需要制定新的基准，以反映AI技术及其在现实世界中应用的多面性。更全面的方法将确保我们准确衡量AI的影响，并促进其以造福社会的方式发展。