介绍测试时计算(Test Compute Time)的基本原理及其在大规模语言模型推理中的应用方法
参考资料
帖子
Scaling test-time compute - a Hugging Face Space by HuggingFaceH4arrow-up-right
大模型如何控制推理预算
大模型如何控制推理深度
CoT Token Budget:限制内部推理 token 数
Reasoning→Answer Switch:达到深度 D 自动切换成最终回答
ToT、GoT:控制搜索树的深度或循环深度
Self-refinement loops:限制自我反思/迭代推理轮数
Reasoning MoE:控制 Reasoning Expoerts 的层数、迭代推理回路的次数
Prompt-level step control:显式要求 “不超过 X 步”
解码约束(Decoding Constraint)
max_reasoning_tokens
max_cot_tokens
max_steps
max_reflection_rounds
经验上,数学/逻辑任务的性能随推理深度呈现 $\text{Acc}(D) \approx 1 - e^{-\alpha D}$,即深度越深 → 收益越大,但边际收益递减
推理深度 = 模型在生成最终答案前允许的内部思考 token 数 / 推理步骤数 / 搜索深度,由解码器调度器或 MoE 推理专家动态控制
Last updated 46 minutes ago
Was this helpful?