评估人工智能预测科学进展的能力：CUSP基准研究

研究进展短期未必马上可用，但它常常预示下一代工具能力。普通用户可以把它当作趋势信号，关注后续是否被主流产品采用。

发生了什么

本研究引入CUSP基准，基于4760个科学事件评估AI预测进展的能力。测试发现，当前前沿模型存在系统性局限：虽然能从候选中识别合理方向，但无法可靠预测进展能否实现，且常错误估计时间。性能在不同领域差异显著，AI进展比其他学科更易预测。模型表现对训练截止时间不敏感，表明限制不仅源于训练知识。增加事前知识可提升性能，但无法达到完全信息状态。模型还表现出过度自信和响应偏差。总体而言，当前AI作为科学进展预测工具尚不成熟。

普通用户需要关注什么

重点看是否有开源实现、是否被主流产品引用，以及是否会在 1-3 个月内转化为可用工具。

打开来源