重新思考AI性能：传统基准已不再足够

2026-03-31 · MIT Tech Review AI · 原文链接

多年来，人工智能的评估依据是其在各种任务中是否超越人类的能力。从下棋、解决复杂数学方程到写作和编程，AI系统一直与个体人类能力进行对比。尽管这种比较很吸引人，但往往无法全面反映AI的潜力和局限性。与其单纯关注人类的直接比较，不如发展新的基准，反映AI独特的优势，使我们更好地理解其在我们生活中的角色。评估标准的转变可能会导致更有效的AI应用，有助于提升人类生产力，而不仅仅是与其竞争。