当前位置:首页>技巧>

超越训练综合测试卷答案

超越训练综合测试卷答案

更新时间:2025-03-03 17:50:45

自从DeepSeek开源了V3和R1模型后,整个AI大模型仿佛踩下了油门,不断涌现新的、让人眼前一亮的新技术。近日斯坦福团队发布《s1: Simple test-time scaling》,这项名为"s1"的研究颠覆了传统认知:仅用1,000个标注样本微调32B参数模型,结合解码阶段动态调整思维深度的创新方法,不仅在MATH500数学竞赛题上以93%准确率超越o1-preview,更以56.7%的AIME24得分创下开源模型新纪录。

更令人惊叹的是,整个训练过程仅需16块H100 GPU运行26分钟,耗电量相当于烧开5壶水。按2美元/1小时H100计算,成本还不到50美元。这项成果不仅为测试时扩展提供了首个开源实现,更揭示了语言模型推理能力的惊人可塑性。

  • 论文地址:s1: Simple test-time scaling
  • GitHub:https://github.com/simplescaling/s1
  • Model: https://hf.co/simplescaling/s1-32B
  • Data: https://hf.co/datasets/simplescaling/s1K
    • s1-prob: https://hf.co/datasets/simplescaling/s1-prob
    • s1-teasers: https://hf.co/datasets/simplescaling/s1-teasers
1 引言:从训练扩展到测试扩展的新范式

过去几年,语言模型的进步主要依赖于训练阶段的计算扩展。通过大规模自监督预训练,研究人员成功构建了功能强大的基础模型。然而,这些模型在推理任务上的表现往往受到限制,尤其是在面对复杂的数学、科学或逻辑问题时。OpenAI推出的o1模型首次验证了“测试时扩展”的可行性,即通过增加测试阶段的计算量来提高模型性能。遗憾的是,o1的具体方法并未公开,这引发了大量复现尝试,但鲜有成功案例。

在此背景下,《s1: Simple test-time scaling》的研究团队提出了一个大胆的问题:能否以最简单的方式实现测试时扩展和强大的推理能力?他们给出了肯定的答案,并通过一系列创新方法证明了这一点。

2数据炼金术:从59K到1K的质变之路2.1 初始数据池构建

研究团队从16个来源收集59,029道高质量题目,构建覆盖数学、物理、化学等多学科的"推理宇宙"。其中:

  • 竞赛题库占主体,包含NuminaMATH的30,660道在线数学题
  • 原创数据集补充专业难题:斯坦福统计系博士资格考试的182道概率题,量化交易面试的23道烧脑题
  • 跨学科挑战来自OlympicArena的4,250道奥林匹克竞赛题,涵盖天文、生物等7大学科

每个题目均通过Google Gemini Flash API生成详细推理链,形成"问题-思考过程-答案"三元组。为防止数据污染,团队采用8-gram重叠检测,确保评估集(MATH500、GPQA Diamond、AIME24)的纯净性。

2.2 三维过滤漏斗

为提取"黄金千题",团队设计三阶段过滤机制:

质量关卡

  • 剔除API错误样本(减少4,913例)
  • 过滤ASCII图表等格式问题(再减2,535例)
  • 人工精选384道完美样本

难度筛选

  • 使用Qwen2.5-7B/32B双模型测试,剔除任一模型能解决的"简单题"
  • 保留思考链长于平均值的题目(剩余24,496道)

多样性引擎

  • 按数学主题分类(AMS分类法)
  • 均匀采样50个学科领域
  • 每领域优先选取长推理链题目

最终数据集s1K覆盖几何、数论、量子力学等50个领域,平均每道题包含4,700个思考token。消融实验显示,随机采样或单一标准筛选会使AIME24成绩骤降30%。

经过上述步骤,研究团队最终得到了包含1000个样本的s1K数据集,覆盖了50个不同的领域。这种多维度筛选策略不仅保证了数据集的全面性,还大幅提升了其代表性。

3 测试时扩展方法(test-time scaling):预算强制与顺序扩展

在完成数据准备后,研究团队转向了另一个重要环节——如何在测试阶段有效扩展计算资源。他们提出了一种名为“预算强制”(budget forcing)的技术,这是一种简单而高效的测试时扩展方法。

具体如下:

硬终止机制

  • 当生成token超过预设阈值时,强制插入终止符"[End]"
  • 例如限制4,096 token时,模型需在限定篇幅内完成思考

软延长策略

  • 检测到过早终止倾向时,自动追加"Wait"提示
  • 通过6次连续延长,AIME24准确率从50%提升至57%
4 实验验证与效果分析4.1 实验设置

为了评估预算强制的有效性,研究团队作者在Qwen2.5-32B-Instruct模型上进行了监督微调,使用s1K数据集训练了s1-32B模型。微调过程仅需26分钟,使用了16个NVIDIA H100 GPU。评估任务包括AIME24、MATH500和GPQA Diamond三个推理密集型基准测试。

4.2 性能表现

s1-32B模型在测试时扩展方面表现出色,随着计算资源的增加,模型性能显著提升。特别是在AIME24任务上,s1-32B模型通过预算强制技术将性能从50%提升到57%。此外,s1-32B模型在样本效率上也表现出色,仅使用1,000个样本就达到了与使用800K样本的DeepSeek r1模型相当的性能。

5.消融实验5.1 数据数量、多样性和难度

作者通过消融实验验证了数据选择的重要性。仅使用随机选择的1,000个样本、仅考虑多样性的样本或仅考虑难度的样本,都会导致性能显著下降。相比之下,结合质量、难度和多样性的s1K数据集表现最佳。

5.2 测试时扩展方法

作者比较了几种测试时扩展方法,发现预算强制在控制性和扩展性上表现最佳。条件长度控制方法和拒绝采样虽然也能在一定程度上控制计算资源,但在性能提升上不如预算强制。

6. 讨论与相关工作6.1 样本高效推理

本文展示了仅使用1,000个样本进行监督微调就能达到与o1-preview模型相当的性能。作者认为,模型在预训练阶段已经接触了大量的推理数据,微调阶段只是激活了这些能力,并通过测试时扩展进一步提升了性能。这解释了为何:

  • 1K样本足以唤醒模型在数万亿token中积累的数学直觉
  • 预算控制通过外部调节,释放了模型固有的自修正能力
6.2 测试时扩展的局限性

尽管预算强制技术在测试时扩展方面表现出色,但它仍有两个主要限制:性能最终会趋于平缓,且受限于模型的上下文窗口。未来的研究可以探索如何进一步扩展测试时计算资源,例如通过结合不同的字符串或使用强化学习进行微调。

7. 结论

本文提出了一种简单而有效的方法,通过仅使用1,000个样本和预算强制技术,实现了强大的推理模型s1-32B。该模型在多个推理任务上表现出色,并在测试时扩展方面展示了显著的性能提升。本文的方法为未来的推理模型研究提供了一个简单而高效的基准。《s1: Simple test-time scaling》不仅揭示了小数据集的巨大潜力,还为未来研究指明了方向。正如作者所言,“简单即美”,或许正是这种返璞归真的理念,才能真正推动AI技术迈向新的高度。

后记:看论文效果非常不错,不过对于我这种玩了很多年机器学习的老玩家,对这种"小数据集大幅提升"的情况,总感觉有点似曾相识。因为机器学习的时候碰到这种情况,一般都是过拟。不过6.1节的理由,也很有说服力,等后续有机会看一下模型的实际情况吧。

——完——

@北方的郎 · 专注模型与代码

喜欢的朋友,欢迎赞同、关注、分享三连 ^O^

,