LLM推理能自己选详细还是迅速？新方法竟能控制思考路径长度

不圆发自凹非寺

量子位 | 公众号 QbitAI

DeepSeek推理要详细还是要迅速，现在可以自己选了？

特拉维夫大学的研究团队成功研发了一种创新技术，该技术能够对LLM的思考路径长度进行有效监控与调节。

为LLM的推理功能配备进度指示器，同时具备调节推理程度和操控推理速度的能力。

经过加速处理后的模型，与原始模型相较，其使用的token数量减少了大约六倍之多，并且两者均成功得出了正确的结果。

大型语言模型在呈现结构化推理能力时，会不自觉地记录自己在思考过程中的具体位置，并且通过一种隐蔽的状态编码方式来存储这一信息。

该论文提出了一种名为“思维进度向量”（Thinking Progress Vector, TPV）的新概念，该向量能够对模型在推理过程中的相对位置进行实时预测，并且能够通过进度条的视觉展示来呈现模型的推理进展情况。

通过调整TPV，我们能够对模型的推理速度进行提升或降低，从而实现所谓的“超频”操作以及“降频”处理。

超频技术能够缩减多余的推理过程，从而加速模型得出结论的速度，并且有效防止了过度推理可能引发的性能衰减问题。

该模型已在gitHub上开源。

方法：实时监控并控制推理深度

在有效的推理学习阶段，模型需隐含地掌握自身思考进度的追踪，同时持续关注诸如与最终答案的接近程度等信息的评估。

进度跟踪的执行需要依赖输入数据，因此此类信息不宜存放在模型的固定权重里，而应当实时地编码于层与层之间传递的隐蔽表征之中。

为此，论文的研究团队选择从最终隐藏层提取信息。

研究团队致力于开发一种执行显式结构化推理的模型，此类模型具备明确标识且连贯的推理步骤，例如DeepSeek-R1模型。

通过依据各个标记点的相对位置，可以精确地运用介于零与一之间的插值数值来衡量模型在推理过程中的进展程度。

形式上，通过以下方式构建数据集：

其中

是第k个思考轨迹中第j个词的隐藏表示，

是该词在其思考序列中的相对位置。K表示采样轨迹的数量，

中的总样本数为

在此基础上优化一个进度提取函数

，将隐藏表示映射为其相对位置，形式为一个回归任务

使用参数为

的线性回归器作为函数

来进行拟合进度属性

，将参数向量称为“思考进度向量”（TPV）。

为了增强预测的准确性，模型借助其自回归功能，同时采用指数平滑方法对历史预测数据进行处理，以此降低数据中的干扰。在Math-500测试集中实施TPV预测，具体结果如图所展示。

开源的30种思路__开源的36种思路

图（a）呈现了多个思考路径数据点的综合展示，而图（b, c）则分别揭示了Math-500测试中针对单个问题的思考路径上的TPV预测结果以及平滑预测情况。

观察结果显示，这两种策略均能准确预测出相对位置，其中一种方法在结果精确度上更为突出，这使得它能够被用来构建既清晰又便于理解的进度条。

受此启示，我们旨在更高效地运用进度条来推断任务的时序架构，故此，我们采用了可训练的序列模型来取代传统的指数平滑方法。具体做法是，在相同的训练样本基础上，我们以相对位置序列作为输入，而非进行单一的预测步骤。

通过这种方法，就可以实现推理进度的可视化。

一个核心的疑问在于，TPVs是否揭示了模型在追踪推理过程时所依赖的根本机制，抑或是它们仅仅是与进度有关，却并未对计算产生因果影响的残留部分？

为了解答这一疑问，我们采取了针对TPY的干预措施：具体做法是，沿着投影向量的方向调整隐藏表示的移动量α，即

，修改后的表示具有新的预测值

在所有注意力层上实施该干预措施后，能够实现对下个词预测的调控，同时防止在连续解码过程中，对存储并持续使用的表征进行不当编辑。

在实验过程中，α被视作影响干预力度的一个关键参数。当α的值为零时，将不会进行任何干预，从而保持原有的计算结果。而α取正值时，则会引发超频现象。

实验证明，超频将加速模型的推理阶段，使其更短、更果断：

图中展示了DeepSeek-R1-Distill-Qwen-32B模型所输出的两种思维过程序列，分别对应干预前后的状态。

原始序列显现出迟疑与拖沓的特点，与之形成鲜明对比的是，TPV加速版本显著变得更加精炼，其使用的token数量大幅降低，几乎减少了五分之六。

并且，两条轨迹最终都得到了正确的答案。

效果：最高提速近6倍，准确率不降反升

对DeepSeek-R1-Qwen-32B与DeepSeek-R1-LLaMA-8B进行TPV有效性测试，具体结果详见图示。

实验结果揭示了四个显著趋势：

α值的变化对模型性能的影响显著：当α值从5增至100时，不论是否采用基于指令的加速技术，模型在生成完整、结束以及正确答案方面的数量均有提升，这充分表明TPV干预策略对思考过程的持续时间产生了积极影响。

对加速后的基线与原始模型进行对比：基线（ii）和（iii）通过引入提示响应以及应用温度集成技术来提升基础模型的运行速度。在多数测试中，这两种策略均有效提升了三个关键指标的表现，从而证实了它们作为评估TPV超频性能的可靠基准。

尽管基线方法展现出卓越的表现，而基于温度的基线方法在计算资源上大约需要五倍于TPV方法，然而TPV方法凭借其提供的更多准确答案以及更清晰的反馈，在性能上超越了基线方法。

在预算限制较低（例如256或512个token）的条件下，TPV方法显著提升了正确答案的比例，增幅高达80%，同时并未导致错误率的上升，错误率维持稳定。这一结果揭示了TPV方法在缩短推理时间的同时，并未牺牲准确性，从而有助于实现更为清晰的思维过程。

针对超过512的计算预算，一般会呈现出一致的走向，多数情形下，正确答案的数量有所增加，同时，错误率并未出现显著上升。

尽管实证研究的结果显示TPV方法相较于基线方法在有效性上更胜一筹，然而，仍存在某些情况下该方法的表现不及基于提示的方法（简称“指令”）。以在Math 500测试中，采用2048个token预算的机制为例，指令基线在正确回答问题上的比例比TPV方法高出10%。

这一观察引发了这样的问题：这些改进是正交的还是相互竞争的？

将指令驱动的提示技术与TPV干预策略融合，并与各自独立应用的效果进行对比。从表格的最后两行数据可以看出，这种综合方法在多数情形下均展现出卓越的性能，平均提升了66%，最高可达285%；与原始模型相比，平均提升了223%，最高提升了1416%。

这些研究结果表明，TPV技术与提示法相互促进，能够有效地融合进其他加速手段之中。

对Math-500以及GSM8K数据集实施了一系列的干预实验，通过调整干预参数α，旨在提升模型在思考环节的效率。

研究结果表明，提升α值能够不断减少思考环节的时长，进而提升推理的效率。

这些研究结果表明，TPV在模型内部计算过程中扮演着一种主动调控的角色，而非仅仅是被动的关联。

在GSM8K数据集上，采用提示策略（基线iii）对DeepSeek-R1 LLaMA模型实施TPV方法后，平均token数量显著下降，从原先的约500降至不足350，同时计算量也相应减少了约30%。

除此之外，所有α的正值均与基准值（ α=0 ）相比，在思考阶段持续加速，并且增强了其效能。

为了更深入地检验TPVs在预测模型定位推理阶段的可信度，研究小组在额外设定的两个特定情境中对它们的效能进行了测试：，

图(a-d)呈现的结果表明，TPVs在多种指令下依然保持其有效性，这一现象与训练阶段所采用的原始提示存在差异。

图(e)呈现的数据表明，在各个不同的思考序列长度区间内，测试损失均维持在较低水平，这一现象反映出模型对推理深度变化的适应性较强。

LLM推理能自己选详细还是迅速？新方法竟能控制思考路径长度

AI芯片与光模块配比率持续提升，行业增长潜力究竟有多大？

三星收购 Xealth 欲整合临床护理服务？Galaxy W

AI芯片与光模块配比率持续提升，行业增长潜力究竟有多大？

三星收购 Xealth 欲整合临床护理服务？Galaxy W

相关文章

冰上舞剧踏冰逐梦张丹张昊同台！14年携手

死了22年竟被曝跳楼有内幕？张国荣死因成

22岁晏晏离世！母亲那句‘妈妈很好，你不