自从DeepSeek开源了V3和R1模型后,整个AI大模型仿佛踩下了油门,不断涌现新的、让人眼前一亮的新技术。近日斯坦福团队发布《s1: Simple test-time scaling》,这项名为"s1"的研究颠覆了传统认知:仅用1,000个标注样本微调32B参数模型,结合解码阶段动态调整思维深度的创新方法,不仅在MATH500数学竞赛题上以93%准确率超越o1-preview,更以56.7%的AIME24得分创下开源模型新纪录。
更令人惊叹的是,整个训练过程仅需16块H100 GPU运行26分钟,耗电量相当于烧开5壶水。按2美元/1小时H100计算,成本还不到50美元。这项成果不仅为测试时扩展提供了首个开源实现,更揭示了语言模型推理能力的惊人可塑性。
- 论文地址:s1: Simple test-time scaling
- GitHub:https://github.com/simplescaling/s1
- Model: https://hf.co/simplescaling/s1-32B
- Data: https://hf.co/datasets/simplescaling/s1K
- s1-prob: https://hf.co/datasets/simplescaling/s1-prob
- s1-teasers: https://hf.co/datasets/simplescaling/s1-teasers
过去几年,语言模型的进步主要依赖于训练阶段的计算扩展。通过大规模自监督预训练,研究人员成功构建了功能强大的基础模型。然而,这些模型在推理任务上的表现往往受到限制,尤其是在面对复杂的数学、科学或逻辑问题时。OpenAI推出的o1模型首次验证了“测试时扩展”的可行性,即通过增加测试阶段的计算量来提高模型性能。遗憾的是,o1的具体方法并未公开,这引发了大量复现尝试,但鲜有成功案例。
在此背景下,《s1: Simple test-time scaling》的研究团队提出了一个大胆的问题:能否以最简单的方式实现测试时扩展和强大的推理能力?他们给出了肯定的答案,并通过一系列创新方法证明了这一点。
2数据炼金术:从59K到1K的质变之路2.1 初始数据池构建研究团队从16个来源收集59,029道高质量题目,构建覆盖数学、物理、化学等多学科的"推理宇宙"。其中:
- 竞赛题库占主体,包含NuminaMATH的30,660道在线数学题
- 原创数据集补充专业难题:斯坦福统计系博士资格考试的182道概率题,量化交易面试的23道烧脑题
- 跨学科挑战来自OlympicArena的4,250道奥林匹克竞赛题,涵盖天文、生物等7大学科
每个题目均通过Google Gemini Flash API生成详细推理链,形成"问题-思考过程-答案"三元组。为防止数据污染,团队采用8-gram重叠检测,确保评估集(MATH500、GPQA Diamond、AIME24)的纯净性。
2.2 三维过滤漏斗为提取"黄金千题",团队设计三阶段过滤机制:
质量关卡:
- 剔除API错误样本(减少4,913例)
- 过滤ASCII图表等格式问题(再减2,535例)
- 人工精选384道完美样本
难度筛选:
- 使用Qwen2.5-7B/32B双模型测试,剔除任一模型能解决的"简单题"
- 保留思考链长于平均值的题目(剩余24,496道)
多样性引擎:
- 按数学主题分类(AMS分类法)
- 均匀采样50个学科领域
- 每领域优先选取长推理链题目
最终数据集s1K覆盖几何、数论、量子力学等50个领域,平均每道题包含4,700个思考token。消融实验显示,随机采样或单一标准筛选会使AIME24成绩骤降30%。
经过上述步骤,研究团队最终得到了包含1000个样本的s1K数据集,覆盖了50个不同的领域。这种多维度筛选策略不仅保证了数据集的全面性,还大幅提升了其代表性。
3 测试时扩展方法(test-time scaling):预算强制与顺序扩展在完成数据准备后,研究团队转向了另一个重要环节——如何在测试阶段有效扩展计算资源。他们提出了一种名为“预算强制”(budget forcing)的技术,这是一种简单而高效的测试时扩展方法。
具体如下:
硬终止机制:
- 当生成token超过预设阈值时,强制插入终止符"[End]"
- 例如限制4,096 token时,模型需在限定篇幅内完成思考
软延长策略:
- 检测到过早终止倾向时,自动追加"Wait"提示
- 通过6次连续延长,AIME24准确率从50%提升至57%
为了评估预算强制的有效性,研究团队作者在Qwen2.5-32B-Instruct模型上进行了监督微调,使用s1K数据集训练了s1-32B模型。微调过程仅需26分钟,使用了16个NVIDIA H100 GPU。评估任务包括AIME24、MATH500和GPQA Diamond三个推理密集型基准测试。
s1-32B模型在测试时扩展方面表现出色,随着计算资源的增加,模型性能显著提升。特别是在AIME24任务上,s1-32B模型通过预算强制技术将性能从50%提升到57%。此外,s1-32B模型在样本效率上也表现出色,仅使用1,000个样本就达到了与使用800K样本的DeepSeek r1模型相当的性能。
作者通过消融实验验证了数据选择的重要性。仅使用随机选择的1,000个样本、仅考虑多样性的样本或仅考虑难度的样本,都会导致性能显著下降。相比之下,结合质量、难度和多样性的s1K数据集表现最佳。
作者比较了几种测试时扩展方法,发现预算强制在控制性和扩展性上表现最佳。条件长度控制方法和拒绝采样虽然也能在一定程度上控制计算资源,但在性能提升上不如预算强制。
本文展示了仅使用1,000个样本进行监督微调就能达到与o1-preview模型相当的性能。作者认为,模型在预训练阶段已经接触了大量的推理数据,微调阶段只是激活了这些能力,并通过测试时扩展进一步提升了性能。这解释了为何:
- 1K样本足以唤醒模型在数万亿token中积累的数学直觉
- 预算控制通过外部调节,释放了模型固有的自修正能力
尽管预算强制技术在测试时扩展方面表现出色,但它仍有两个主要限制:性能最终会趋于平缓,且受限于模型的上下文窗口。未来的研究可以探索如何进一步扩展测试时计算资源,例如通过结合不同的字符串或使用强化学习进行微调。
7. 结论本文提出了一种简单而有效的方法,通过仅使用1,000个样本和预算强制技术,实现了强大的推理模型s1-32B。该模型在多个推理任务上表现出色,并在测试时扩展方面展示了显著的性能提升。本文的方法为未来的推理模型研究提供了一个简单而高效的基准。《s1: Simple test-time scaling》不仅揭示了小数据集的巨大潜力,还为未来研究指明了方向。正如作者所言,“简单即美”,或许正是这种返璞归真的理念,才能真正推动AI技术迈向新的高度。
后记:看论文效果非常不错,不过对于我这种玩了很多年机器学习的老玩家,对这种"小数据集大幅提升"的情况,总感觉有点似曾相识。因为机器学习的时候碰到这种情况,一般都是过拟。不过6.1节的理由,也很有说服力,等后续有机会看一下模型的实际情况吧。
——完——
@北方的郎 · 专注模型与代码
喜欢的朋友,欢迎赞同、关注、分享三连 ^O^
,