重新思考人工智能表现:当前基准测试为何已不再适用

2026-03-31 · MIT Tech Review AI · 原文链接

多年来,人工智能的评估一直集中在机器是否能够超越人类的能力。从国际象棋到复杂的数学,从编程到作文,AI系统在各种任务中与人类表演者进行对比。虽然这种方法引人入胜,但通常将智能的复杂性简化为孤立的挑战,结果容易测量。然而,随着人工智能的不断发展,这一框架可能已显得过时。是时候探索新的指标,更好地反映人工智能的能力和潜力,超越简单的比较,拥抱对机器智能更全面的理解。