6. Test Compute Time

介绍测试时计算(Test Compute Time)的基本原理及其在大规模语言模型推理中的应用方法

  • 大模型如何控制推理预算

  • 大模型如何控制推理深度

    • CoT Token Budget:限制内部推理 token 数

    • Reasoning→Answer Switch:达到深度 D 自动切换成最终回答

    • ToT、GoT:控制搜索树的深度或循环深度

    • Self-refinement loops:限制自我反思/迭代推理轮数

    • Reasoning MoE:控制 Reasoning Expoerts 的层数、迭代推理回路的次数

    • Prompt-level step control:显式要求 “不超过 X 步”

  • 解码约束(Decoding Constraint)

    • max_reasoning_tokens

    • max_cot_tokens

    • max_steps

    • max_reflection_rounds

  • 经验上,数学/逻辑任务的性能随推理深度呈现 $\text{Acc}(D) \approx 1 - e^{-\alpha D}$,即深度越深 → 收益越大,但边际收益递减

  • 推理深度 = 模型在生成最终答案前允许的内部思考 token 数 / 推理步骤数 / 搜索深度,由解码器调度器或 MoE 推理专家动态控制

Last updated

Was this helpful?