6. Test Compute Time

介绍测试时计算（Test Compute Time）的基本原理及其在大规模语言模型推理中的应用方法

参考资料
- 帖子
  - Scaling test-time compute - a Hugging Face Space by HuggingFaceH4
大模型如何控制推理预算
大模型如何控制推理深度
- CoT Token Budget：限制内部推理 token 数
- Reasoning→Answer Switch：达到深度 D 自动切换成最终回答
- ToT、GoT：控制搜索树的深度或循环深度
- Self-refinement loops：限制自我反思/迭代推理轮数
- Reasoning MoE：控制 Reasoning Expoerts 的层数、迭代推理回路的次数
- Prompt-level step control：显式要求 “不超过 X 步”
解码约束（Decoding Constraint）
- max_reasoning_tokens
- max_cot_tokens
- max_steps
- max_reflection_rounds
经验上，数学/逻辑任务的性能随推理深度呈现 $\text{Acc}(D) \approx 1 - e^{-\alpha D}$，即深度越深 → 收益越大，但边际收益递减
推理深度 = 模型在生成最终答案前允许的内部思考 token 数 / 推理步骤数 / 搜索深度，由解码器调度器或 MoE 推理专家动态控制

Last updated 46 minutes ago

Was this helpful?