重新思考人工智能表现：当前基准测试为何已不再适用

2026-03-31 · MIT Tech Review AI · 原文链接

多年来，人工智能的评估一直集中在机器是否能够超越人类的能力。从国际象棋到复杂的数学，从编程到作文，AI系统在各种任务中与人类表演者进行对比。虽然这种方法引人入胜，但通常将智能的复杂性简化为孤立的挑战，结果容易测量。然而，随着人工智能的不断发展，这一框架可能已显得过时。是时候探索新的指标，更好地反映人工智能的能力和潜力，超越简单的比较，拥抱对机器智能更全面的理解。