前沿模型智能体任务测试：Qwen 3.7-Max 展现显著优势

研究进展短期未必马上可用，但它常常预示下一代工具能力。普通用户可以把它当作趋势信号，关注后续是否被主流产品采用。

发生了什么

近期一项针对前沿AI模型在真实智能体任务上的测试显示，Qwen 3.7-Max在效果与成本方面全面领先。该任务要求模型自主编写并迭代优化一个能自我训练的Tetris机器人程序。在10轮自我改进中，Qwen 3.7-Max仅花费1.32美元，便将机器人性能提升了56%。相比之下，Claude Opus 4.7花费12.15美元提升了28%，GPT-5.5花费2.85美元提升了7%。结果表明，在需要长时间自主推理、代码阅读与迭代的复杂智能体循环场景中，Qwen Max具备极强的成本效益比与自我改进能力。

普通用户需要关注什么

重点看是否有开源实现、是否被主流产品引用，以及是否会在 1-3 个月内转化为可用工具。

打开来源