超越训练综合测试卷答案

更新时间：2025-03-03 17:50:45

自从DeepSeek开源了V3和R1模型后，整个AI大模型仿佛踩下了油门，不断涌现新的、让人眼前一亮的新技术。近日斯坦福团队发布《s1: Simple test-time scaling》，这项名为"s1"的研究颠覆了传统认知：仅用1,000个标注样本微调32B参数模型，结合解码阶段动态调整思维深度的创新方法，不仅在MATH500数学竞赛题上以93%准确率超越o1-preview，更以56.7%的AIME24得分创下开源模型新纪录。

更令人惊叹的是，整个训练过程仅需16块H100 GPU运行26分钟，耗电量相当于烧开5壶水。按2美元/1小时H100计算，成本还不到50美元。这项成果不仅为测试时扩展提供了首个开源实现，更揭示了语言模型推理能力的惊人可塑性。

论文地址：s1: Simple test-time scaling
GitHub：https://github.com/simplescaling/s1
Model: https://hf.co/simplescaling/s1-32B
Data: https://hf.co/datasets/simplescaling/s1K

s1-prob: https://hf.co/datasets/simplescaling/s1-prob
s1-teasers: https://hf.co/datasets/simplescaling/s1-teasers

1 引言：从训练扩展到测试扩展的新范式

过去几年，语言模型的进步主要依赖于训练阶段的计算扩展。通过大规模自监督预训练，研究人员成功构建了功能强大的基础模型。然而，这些模型在推理任务上的表现往往受到限制，尤其是在面对复杂的数学、科学或逻辑问题时。OpenAI推出的o1模型首次验证了“测试时扩展”的可行性，即通过增加测试阶段的计算量来提高模型性能。遗憾的是，o1的具体方法并未公开，这引发了大量复现尝试，但鲜有成功案例。

在此背景下，《s1: Simple test-time scaling》的研究团队提出了一个大胆的问题：能否以最简单的方式实现测试时扩展和强大的推理能力？他们给出了肯定的答案，并通过一系列创新方法证明了这一点。

2数据炼金术：从59K到1K的质变之路2.1 初始数据池构建

研究团队从16个来源收集59,029道高质量题目，构建覆盖数学、物理、化学等多学科的"推理宇宙"。其中：

竞赛题库占主体，包含NuminaMATH的30,660道在线数学题
原创数据集补充专业难题：斯坦福统计系博士资格考试的182道概率题，量化交易面试的23道烧脑题
跨学科挑战来自OlympicArena的4,250道奥林匹克竞赛题，涵盖天文、生物等7大学科

每个题目均通过Google Gemini Flash API生成详细推理链，形成"问题-思考过程-答案"三元组。为防止数据污染，团队采用8-gram重叠检测，确保评估集（MATH500、GPQA Diamond、AIME24）的纯净性。

2.2 三维过滤漏斗

为提取"黄金千题"，团队设计三阶段过滤机制：

质量关卡：

剔除API错误样本（减少4,913例）
过滤ASCII图表等格式问题（再减2,535例）
人工精选384道完美样本

难度筛选：

使用Qwen2.5-7B/32B双模型测试，剔除任一模型能解决的"简单题"
保留思考链长于平均值的题目（剩余24,496道）

多样性引擎：

按数学主题分类（AMS分类法）
均匀采样50个学科领域
每领域优先选取长推理链题目

最终数据集s1K覆盖几何、数论、量子力学等50个领域，平均每道题包含4,700个思考token。消融实验显示，随机采样或单一标准筛选会使AIME24成绩骤降30%。

经过上述步骤，研究团队最终得到了包含1000个样本的s1K数据集，覆盖了50个不同的领域。这种多维度筛选策略不仅保证了数据集的全面性，还大幅提升了其代表性。

3 测试时扩展方法（test-time scaling）：预算强制与顺序扩展

在完成数据准备后，研究团队转向了另一个重要环节——如何在测试阶段有效扩展计算资源。他们提出了一种名为“预算强制”（budget forcing）的技术，这是一种简单而高效的测试时扩展方法。

具体如下：

硬终止机制：

当生成token超过预设阈值时，强制插入终止符"[End]"
例如限制4,096 token时，模型需在限定篇幅内完成思考

软延长策略：

检测到过早终止倾向时，自动追加"Wait"提示
通过6次连续延长，AIME24准确率从50%提升至57%

4 实验验证与效果分析4.1 实验设置

为了评估预算强制的有效性，研究团队作者在Qwen2.5-32B-Instruct模型上进行了监督微调，使用s1K数据集训练了s1-32B模型。微调过程仅需26分钟，使用了16个NVIDIA H100 GPU。评估任务包括AIME24、MATH500和GPQA Diamond三个推理密集型基准测试。

4.2 性能表现

s1-32B模型在测试时扩展方面表现出色，随着计算资源的增加，模型性能显著提升。特别是在AIME24任务上，s1-32B模型通过预算强制技术将性能从50%提升到57%。此外，s1-32B模型在样本效率上也表现出色，仅使用1,000个样本就达到了与使用800K样本的DeepSeek r1模型相当的性能。

5.消融实验5.1 数据数量、多样性和难度

作者通过消融实验验证了数据选择的重要性。仅使用随机选择的1,000个样本、仅考虑多样性的样本或仅考虑难度的样本，都会导致性能显著下降。相比之下，结合质量、难度和多样性的s1K数据集表现最佳。

5.2 测试时扩展方法

作者比较了几种测试时扩展方法，发现预算强制在控制性和扩展性上表现最佳。条件长度控制方法和拒绝采样虽然也能在一定程度上控制计算资源，但在性能提升上不如预算强制。

6. 讨论与相关工作6.1 样本高效推理

本文展示了仅使用1,000个样本进行监督微调就能达到与o1-preview模型相当的性能。作者认为，模型在预训练阶段已经接触了大量的推理数据，微调阶段只是激活了这些能力，并通过测试时扩展进一步提升了性能。这解释了为何：

1K样本足以唤醒模型在数万亿token中积累的数学直觉
预算控制通过外部调节，释放了模型固有的自修正能力

6.2 测试时扩展的局限性

尽管预算强制技术在测试时扩展方面表现出色，但它仍有两个主要限制：性能最终会趋于平缓，且受限于模型的上下文窗口。未来的研究可以探索如何进一步扩展测试时计算资源，例如通过结合不同的字符串或使用强化学习进行微调。

7. 结论

本文提出了一种简单而有效的方法，通过仅使用1,000个样本和预算强制技术，实现了强大的推理模型s1-32B。该模型在多个推理任务上表现出色，并在测试时扩展方面展示了显著的性能提升。本文的方法为未来的推理模型研究提供了一个简单而高效的基准。《s1: Simple test-time scaling》不仅揭示了小数据集的巨大潜力，还为未来研究指明了方向。正如作者所言，“简单即美”，或许正是这种返璞归真的理念，才能真正推动AI技术迈向新的高度。

后记：看论文效果非常不错，不过对于我这种玩了很多年机器学习的老玩家，对这种"小数据集大幅提升"的情况，总感觉有点似曾相识。因为机器学习的时候碰到这种情况，一般都是过拟。不过6.1节的理由，也很有说服力，等后续有机会看一下模型的实际情况吧。

——完——

@北方的郎 · 专注模型与代码

喜欢的朋友，欢迎赞同、关注、分享三连 ^O^

展开剩余%

上一篇：基本功答案测试卷

下一篇：基础训练测试卷答案六下数学

返回【技巧】栏目

92%的人还看了