评估人工智能预测科学进展的能力:CUSP基准研究
研究进展短期未必马上可用,但它常常预示下一代工具能力。普通用户可以把它当作趋势信号,关注后续是否被主流产品采用。
最近更新:2026-05-21
研究进展短期未必马上可用,但它常常预示下一代工具能力。普通用户可以把它当作趋势信号,关注后续是否被主流产品采用。
发生了什么
本研究引入CUSP基准,基于4760个科学事件评估AI预测进展的能力。测试发现,当前前沿模型存在系统性局限:虽然能从候选中识别合理方向,但无法可靠预测进展能否实现,且常错误估计时间。性能在不同领域差异显著,AI进展比其他学科更易预测。模型表现对训练截止时间不敏感,表明限制不仅源于训练知识。增加事前知识可提升性能,但无法达到完全信息状态。模型还表现出过度自信和响应偏差。总体而言,当前AI作为科学进展预测工具尚不成熟。
普通用户需要关注什么
重点看是否有开源实现、是否被主流产品引用,以及是否会在 1-3 个月内转化为可用工具。
打开来源