想深入理解LLM内部推理机制?这些关键步骤你找到了吗

思维链中的各个步骤均具关键性,然而,某些步骤相较于其他步骤而言,其重要性更为突出,特别是在那些较为冗长的思维链中。

通过识别这些步骤,我们能够更深入地洞察 LLM 的内在推理过程,进而增强模型的可解释性、调试能力以及安全性。

这些步骤并不容易寻觅,原因是每个新生成的token都紧密关联于之前的所有token,其计算过程难以拆分。

近期一项研究由杜克大学与Aiphabet的研究团队共同完成,他们提出,对句子层面的推理线索进行深入分析,或许能够成为一项具有潜力的研究途径。

作者强调,相较于token,句子在连贯性方面表现更佳,且通常与LLM所提取的推理过程保持一致;而与段落相较,句子在混淆推理步骤的可能性上较低,且能够作为串联不同推理步骤的有效媒介。

作者提出了三种相互补充的分析方法,用于探究大型语言模型(LLM)的推理机制。这些方法致力于揭示推理过程中的核心环节,即所谓的“思维锚点”,而这些环节对整个推理流程的进展具有至关重要的意义。

这是一种黑盒技术。它通过对比分析,来评估某个句子对最终答案的潜在影响。具体来说,它通过观察模型在包含与不包含该句子两种情况下,所输出的最终答案分布,以此来判断该句子对答案的潜在作用。

这是一种白盒技术。它能够通过识别注意力模式,锁定关键句子,进而阐明这些关键句子是如何对推理过程的其他环节产生影响的。

第三种方法是因果归因法。此法通过降低对特定句子的关注程度,间接地探测句子间的因果联系,具体来说,就是观察降低对某个句子的关注后,如何影响后续各个句子的预测概率值。

各种方法均证实了思维锚的存在,这些推理环节至关重要,对后续推理产生了显著影响。此类思维锚往往表现为规划性语句或回顾性语句。

作者提供了一个开源工具,用于可视化方法的输出。

请访问以下开源工具的链接:http://thought-anchors.com/,以获取所需资源。

该研究不仅为更精准地调整推理失误提供了可能,而且有助于揭示不可靠性的根源,同时,也为创新提升推理模型可靠性的技术开辟了新的途径。

通过反事实测量句子影响

某些句子较之其他句子拥有更高的关键性,然而,何谓最为关键,这取决于我们对重要性的界定与评估标准。在探讨句子层面的重要性时,作者将其视为一个涉及反事实影响的议题:若某一句子被纳入或剔除,它将对后续的步骤及模型的最终结果产生何种影响?

在先前的研究里,句子关键性的评估往往是通过在推理流程中,迫使模型在每个句子的具体位置上提供最终的判断来实现的,这一做法被称作“强制回答法”(参见图3A)。

这种方法的不足之处在于,对于某些结果来说,句子S扮演着不可或缺的角色,然而,在LLM的推理流程中,该句子往往是在后期才被生成。因此,对于位于S之前的那些句子,若强制要求回答,其准确性通常会相当低,这使得我们难以准确评估这些早期步骤的实际价值。

分析一个包含句子与最终答案 A 的推理过程。作者通过重新选取样本来确立一个指标,该指标旨在评估句子 S 引致答案 A 出现错误的可能性。作者将此指标命名为反事实重要性。他们通过以下三个连续步骤来激发并明确这一指标:

对推理路径进行抽样。针对句子 S_i,分别构建100条推理路径。在一种情形中,路径中包含句子 S_i(即施加干预),而在另一种情形中,则用语义上有所差异的句子 T_i 替换 S_i(即基础情形)。

对两种情况下的答案分布进行对比分析,并计算其KL散度。借此,我们可以获得一个用于评估句子S_i对答案改变影响程度的量化指标。该指标被作者命名为重采样重要性度量。

语义筛选的关键在于,当 T_i 与 S_i 相同或相似时,我们难以判断 S_i 的关键性。为此,作者采用计算句子对的余弦相似度方法,并设定一个相似度标准,以此筛选出与原句 S_i 语义存在差异的替代句 T_i。通过这种方式,我们可以防止因替换后的句子与原句过于相似而引起的分析误差,进而更精确地衡量 S_i 对最终结果的贡献。

作者在给定句子 S_i 后,对后续所有步骤进行了重新采样,这样做有效地规避了先前强制回答方法的限制。

在数据集的研究中,研究者们观察到,在规划生成以及不确定性管理方面,比如回溯,这类句子的反事实价值始终超越其他类型的句子,诸如事实检索或主动计算(参见图3B)。这一发现为以下观点提供了支持:具有高级组织性的句子能够定位、整合并引导推理路径。作者指出,相较于强制回答的重要性以及先前基于token或注意力的评估方式,此方法能够产出更为丰富和详实的信息。

用关键路径法可以求出关键链_连锁推理例子_

通过注意力聚集衡量句子重要性

作者提出,关键句子很可能会吸引后续句子的更多关注。虽然关注程度并不必然代表因果关系,但一个句子受到的高度关注,可能是其对后续句子产生影响的一个合理解释。作者还进一步推论,这种对关键句子的集中关注,可能是由特定的注意力机制所驱动,通过追踪这些机制,或许可以识别出哪些句子是关键的。

作者对各种头部在多大程度上能将注意力聚焦于特定句子进行了评估。起初,他们针对每条推理路径,计算了每个注意力头在 token-to-token 级别的注意力权重矩阵的平均值,进而构建了一个句子与句子之间的矩阵。在这个矩阵中,每个数值代表两个句子间所有 token 对的平均注意力权重。针对每一个注意力矩阵,他们首先计算其对角线以下各列的平均值,以此来评估每个句子从后续句子中得到的关注度;同时,仅在相隔至少四个句子距离的句子对间进行平均值的计算,以便集中关注较远距离的关联。每个头生成了一个特定的分布,如图4A所示,而集中注意力的程度则可通过分布的峰度进行衡量——对每个推理轨迹分别计算后,再取其平均值。观察各头的峰度分布图,可以发现某些注意力头对推理轨迹中的特定句子给予了高度关注,这些句子或许具有关键性,如图4B所示。

图 5 显示,在规划生成、不确定性管理和自我检查方面,句子普遍受到接收头的极大关注(详见图 5),与此同时,主动计算句子所受的关注相对较少。此外,进一步的研究结果与上述发现相吻合,即通过重采样方法,那些得到高接收头关注的句子通常也会对后续句子产生更为显著的影响。这些研究成果与以下观点相吻合:推理过程是以高级句子为基础构建的,这些高级句子所触发的计算或许能够将高级陈述联系起来,然而,它们对整个推理过程的路径可能产生的效应极为有限。

通过「注意力抑制」衡量句子重要性

自然而然地,我们注意到在评估注意力分配的重要性时,存在一个固有的限制:这种评估无法捕捉到因果关系。再者,接收器可能并不总能准确识别句子与它后面的单个句子之间的联系。鉴于此,作者在后续的研究中,将注意力转向了对句子之间依赖关系的因果性分析。

尽管基于重采样的句子间分析能够检测此类依赖关系,但在映射逻辑连接时其精度却相对较低——这是因为反事实的重要性实际上体现了句子对另一句子的综合影响,这包括直接与间接的作用。然而,本文提出的方法致力于区分句子间的直接效应,因此有望对逻辑连接进行更为精确的建模。

作者通过阻断对特定句子的全面关注(包括所有层级和部分),来审视这种阻断对后续句子所产生的作用。具体来说,这种作用的大小是以 token logits 与未阻断时的基线 logits 之间的 KL 散度来衡量的。而对后续句子的整体影响则是通过计算其构成 token log-KL 散度的平均值来得出。

该方法基于两个假设:

token的logits能够精确地抓住句子的语义核心;注意力机制的有效抑制避免了分布外行为对结果产生的干扰。

因此,必须对注意力抑制技术与重采样技术的相互关系进行探究——尽管重采样技术在精确度上有所欠缺,但它并不依赖于那些前提假设。

注意力抑制矩阵与重采样矩阵的数值间存在明显的关联性。在20条推理路径中,有19条路径呈现出正相关关系。特别是当分析推理路径中相隔不超过5句话的案例时,这种相关性表现得更为突出(这可能有助于更精确地捕捉直接效应)。鉴于这两种方法测量的都是因果关系的不同方面,且重采样方法本身带有随机性,这些相关系数的数值具有实际意义。这一发现进一步验证了重采样方法的有效性。

案例研究

所采用的三种技术对推理轨迹中不同层面的归因分析进行了全面覆盖。随后,作者利用模型对特定问题的解答进行了演示,从而彰显了这些技术的实际应用价值及其相互之间的补充作用。以一个具体的例题为例:「将十六进制数66666_16转换成二进制形式后,其包含多少位(比特)?」

重采样

模型在处理这一问题时,首先注意到66666_16这一数值由5个十六进制位组成,并且每个十六进制位可以由4个二进制位来表示。据此,思维链初步推断出答案为“20比特”。但这个初步推断并未考虑到6_16实际上等同于110_2(而非0110_2,因为其开头的0是无效的),所以,正确的答案应该是“19比特”。当模型执行到第13个步骤时,它启动了将66666_16这一数值从十六进制转换为十进制,然后再从十进制转换为二进制的计算过程,从而正确地得出了答案。

重采样技术揭露了该错误轨迹的起始阶段及重要的转折点(如图2A所示)。具体来看,在第6至12句期间,预期的准确率持续走低,然而,到了第13句,反事实的准确率却突然大幅提升。特别需要指出的是,如果采用强制模型来即时生成响应的评估方式(正如某些已有研究所采用的方法),那么将完全忽视第13句所发挥的关键作用——这种评估方法只会得到0准确率的结果。

接收头

模型的最终正确答案推导过程可以细分为若干个计算单元(如图6所示流程图)。模型构建涉及将66666_16转换成十进制的计算方法(第13-19句),然后按照此方法进行计算,从而获得66666_16在十进制下的数值为419,430(第20-33句);之后,通过提出并解决新的计算公式,最终确认了正确的答案为“19比特”(第34-41句)。模型此时察觉到了与先前「20比特」答案之间的不一致(见第42至45句),因此启动了双重验证的计算流程:首先,对十六进制到十进制的转换结果进行了核实(第46至58句),接着,对二进制转换的准确性进行了检查(第59至62句)。在增强对“19比特”答案的信任之后,模型最终揭示了初始“20比特”出现错误的根本原因:这是因为最前面的0并不被计算在位数之中(见第66句)。

该分析过程立足于作者对注意力模式的深入研究:接收头精确识别出启动计算或陈述核心结论的语句,进而将推理过程细分为若干具有显著意义的部分(见图 6)。

注意力抑制分析

该推理过程不仅被构建为计算模块,还呈现出了与句子间依赖关系紧密相连的框架结构(见图 6)。在这一结构中,一个显著的特征是它包含了自我纠错的模式,即从提出错误建议到发现矛盾,最终实现问题的解决。具体来说,模型最初给出了“20比特”这一错误的答案(详见第12句),之后便决定对其进行重新验证。这造成了与基于十进制转换得出的「19 比特」结果不一致的情况(参阅第43-44句)。经过对支撑「19 比特」结论的计算进行复核,模型重新聚焦于这一矛盾之处(第65句),并最终阐明了为何「20 比特」的答案是不准确的(第66句)。这可以被看作是一个初步的思维循环过程:两个相互矛盾的结论引发了冲突,进而推动了模型去解决这一矛盾。

在这个广泛的框架体系内,仍需对之前计算得出的深层依赖关系进行核实。具体来说,模型首先执行了将66666_16转换成十进制数419430的操作(见第32句),接着对这一转换结果进行了核对(第46句),并最终确认了原始数据的准确性(第59句)。这一过程可以看作是思维链条循环往复的又一例证。

作者依据前文所述的注意力抑制矩阵,成功识别出了这些重要的连接点,这些点在相应的关联位置上呈现出局部最大值,具体表现为(12→43、43→65、12→66;32→46、32→59)。特别值得关注的是,运用注意力抑制技术所确定的众多句子,与接收头所特别关注的句子之间有着显著的交集。与接收头的结论相比,注意力抑制技术揭示了信息在这些构建推理路径的关键句子间是如何传递的。

免责声明:本站发布的所有文章图片内容,由AI一键生成,根据关键词和其他参数进行文章自动采集、加工、发布。不对文章内容的真实性、合法性、时效性负责。

版权所有 copyright 2019 长子县融媒体中心 www.zzc-media.com XML地图
《互联网新闻信息服务许可证》 证号:14120200024 《信息网络传播视听节目许可证》 证号:104420004 备案号:晋ICP备19004532号-1

关于站点

‌长子县融媒体中心‌是长子县的一个重要媒体机构,主要负责新闻宣传和媒体融合工作。由原‌长子县广播电视台和‌长子县新闻中心合并组建,成立于2018年12月,标志着长子县新闻宣传工作进入了融合发展的新时代‌。长子县融媒体中心位于山西省长子县会堂四楼,是长子县新闻发布和宣传活动的主要枢纽‌。

搜索Search

搜索一下,你就知道。