若非是为了回味儿时那无拘无束游戏之乐,亦或投身于一场奇幻的想象冒险,在多数情况下,我们其实并不迫切需求那种充满活力的创造力。但近期,上海交通大学媒体与传播学院进行的一项针对生成式人工智能进步与数字传播的研究揭示,对于大模型AI产生的幻觉具有高度感知能力的公众群体,其比例竟然还不到十分之一。
AI技术的普及使得对幻觉的疏忽可能引发严重后果。比如,在医疗领域,若患者从医生或AI辅助工具那里得到的诊断意见存在分歧,这可能会加剧医患之间的沟通障碍和信任成本,甚至可能导致治疗时机的延误;在公共事务方面,由AI虚构的数据很可能被用于操控舆论;而在金融市场,一些由AI编造的虚假新闻也曾一度引发股价的剧烈波动。
为了解决“幻觉”,我们首先需要理解为什么会产生“幻觉”。
语言模型的局限
谈及人工智能领域,目前最为热门的术语非“大语言模型”莫属。那么,究竟何为语言模型呢?
人类在运用语言进行表达时,其词汇的搭配和句式的构建拥有着无尽的创造性,并且带有一定的不可预测性;同样的意思可以通过多种不同的句子来传达,而同样的句子在不同的语境中也可能产生截然不同的解读。为了精确地描述这种不确定性,机器需要借助一种严格的数学模型,而这种模型便是概率论。
语言模型能够描绘出各类语句组合在人类语言使用中的频率。那些频率较高的语句往往遵循语法规则、表达清晰且具备逻辑性。比如,“今天天气很好”这样的句子,在合格的语言模型中会被判定为高概率的表达;相对地,“很好今天天气”或“今天天气很好吃”这样的句子,则会被赋予较低的概率值。因此,一个卓越的语言模型能够确保其描绘的概率与人类的语言习惯高度一致,进而产生对人类有益的输出。
当前广泛应用的生成式人工智能技术源自语言模型的一个流派,即所谓的“自回归语言模型”。在过去十余年间,围绕语言模型的技术路径之争始终未曾平息。到了2022年11月,OpenAI推出了具有里程碑意义的GPT 3.5,而支撑这一产品的核心模型GPT-3.5,则是一款规模庞大的自回归语言模型。自那时起,众多机构推出的巨型语言模型均沿袭了这一技术路径,DeepSeek亦然。
所谓“自回归”,意指模型在生成词元(token)时,总是按照从先到后的顺序依次进行,每个词元的产生概率均受其前文内容的影响。将这些词元连贯起来,便形成了一段完整的文字。举例来说,若我们引导模型从“今天天……”这一片段出发进行续写。在生成“气”字作为开头最为常见,进而形成了如“今天天气”这样的语法正确片段;接着,众多描绘天气的词汇,诸如“很好”和“阴天”,也都有可能被选用,因此模型可能会产出“今天天气很好”或“今天天气阴天”等类似的表达。
该数学模型设计精巧且效果显著,既简化了语言模型的训练流程,又提升了其应用便捷性,但同时也为幻觉现象的出现埋下了隐患。
我们可以设想一个名为“坎巴拉星”的虚构星球,并向模型提出续写任务,例如询问“坎巴拉星的人口数量是多少”。实际上,这个星球在现实中并不存在,模型自然无法获取其真实的人口信息。尽管如此,由于语言模型的特点,它需要在句子中填入一个具体的数字,以确保语句的语法正确。因此,模型只能勉强编造一个数字,以使句子显得合乎逻辑。这便是幻觉的由来。
换句话说,当模型在生成后续词元时,其内在的概率计算存在误差,进而引发幻觉现象。这种误差的产生可能源于多方面原因,从训练流程的角度分析,问题主要集中在预训练阶段和后训练阶段这两个环节。
在预训练过程中,我们指导模型通过自回归模式掌握大量文档的续写技巧,但文档中不可避免地存在错误与偏见。例如,“爱迪生”与“发明电灯泡”这一对词语在众多文章中频繁出现,导致模型误以为它们有很高的共同出现概率。而且,训练数据的时效性问题同样不容忽视。目前市面上主流的大规模模型,其训练数据大多截止到2023年或2024年。由于模型无法对截止日期之后的信息进行精确的概率估算,所以它更频繁地产生错觉。
在后续的训练过程中,问题依旧可能出现。事实上,即便经过了初步训练,该基座模型仍旧只是个“复述者”,它只能续写既定的语句,或是依照提供的范例来创作相似的句子。若要使模型能够理解并执行人类的指令,真正变得实用,就必须经过后续的训练环节。后训练时期一般包括监督式微调以及强化型学习两种方法。
谷歌的研究揭示,在监督微调过程中,若训练数据超出了基座模型所掌握的知识边界,将显著提升模型的幻觉生成能力。监督微调,即向模型提供问题并让其直接给出答案。那么,为何这一环节容易出现问题呢?我们可以通过一个简单的比喻来理解。若基座模型仅拥有高中阶段的知识积累,而训练者却强行使用研究生级别的训练数据进行监督和微调,那么模型可能会误判自己已经达到了研究生层次,进而模仿着编造出相应的回答。
在大模型领域,一个众所周知的事实是,众多厂商倾向于从竞争对手更强大的模型中提取数据,以供自身模型训练使用。尽管这种做法在降低数据成本方面有所裨益,然而它无疑也加剧了幻觉的产生。
幻觉可以被缓解么?怎样缓解?
一个明确的判断是:尽管近年来众多研究投入其中,然而若非创新语言模型的新范式,大模型的幻觉问题恐怕只能得到一定程度的减轻,而难以彻底消除。在这种情形下,对于公众来说,我们是否只能无奈地陷入由幻觉编织成的幻境之中?
并非全然如此。在日常生活里,众多朋友已尝试运用若干策略来尽量降低幻觉出现的频率。例如,充分利用“网络查询”以及“深入分析”的功能;在向大型模型提问时,可以特意指出所需信息的来源,并要求模型核实其回应,诸如提出“请依据可信来源作答”,“请对知识来源进行多次核对,对于不确定的部分请予以说明”。
详细拆解下,主要可以分为以下两种方式。
“检索增强生成”这一方法指的是,通过引入外部知识库,为大模型接入网络搜索功能,使其在遇到未知问题时,能够借助搜索到的网页信息来解答。同时,这种方法还允许为大模型提供额外的参考资料,比如上传文档或表格等文件,以便模型依据这些文件的具体内容给出答案。
这套方法的核心在于教会模型识别“自身的无知”:在问题中,哪些部分可以凭借模型自身的知识来解答,哪些部分则需要借助搜索结果来获取——这一点无法通过人工设定,必须由模型自行作出判断,而这正是最为困难的地方。
行业已有的研究和实践中是如何解决这一问题的呢?
在大型模型中,各个词元的语义会被转换成多维的隐含向量,这些向量经过多层注意力机制的反复运算,最终决定输出的下一个词。有研究指出,这些隐含向量本身携带了识别幻觉的关键信息:当模型遇到熟悉与陌生的知识时,其隐含向量的分布特点会显现出明显的不同。研究者因此设计了一款分类器,该分类器能够通过辨别模型内部状态的不同,准确评估其在当前生成环节是否真正掌握了相关领域的知识。
然而,我们必须认识到,这种方法并未达到百分之百的准确度,因此,幻觉现象仍旧无法被彻底消除。
第二种方法着眼于对模型生成过程的剖析,即指导模型逐步分解其生成步骤,逐步解答问题,而非急于求成,将自己置于必须编造答案的困境。
在执行这一步骤时,模型会探索众多不同的生成途径,同时也会回顾并审视它所输出的内容。例如,当模型虚构了“坎巴拉星的人口总数”这一信息后,我们可以指导它继续创作一段文字,以对之前的陈述进行审视和评估其准确性。所生成的文字将遵守语法和语义的规范,同时为模型提供了改正错误的可能性。OpenAI的o1和o3,还有DeepSeek-R1模型的“深度思考”功能,均成功实现了这种推理机制。
这套方案的核心要义可以概括为以下几点:在训练阶段,研究者允许模型自主尝试解决问题的关键路径,并将那些能够导出正确答案的路径视为“奖励”。借助强化学习的不断循环,激励模型尽可能多地产生正确的路径,进而逐步掌握正确路径所蕴含的行为规律。
DeepSeek-R1模型起初利用少量长思维链数据启动,以此训练模型生成多样化的路径;接着,模型专注于数学问题解决和代码生成等易于验证对错的领域,通过强化学习不断优化推理的准确性;最终,对生成的语言风格进行调整,以确保其更易于人类阅读和理解。
然而,必须指出,正如其训练方法所展现的,这类模型在处理数学和编程相关任务时往往能展现出更佳的表现,但在其他领域则可能并不适用,甚至可能导致更严重的误导性结果。2025年4月16日,OpenAI的研究成果显示,其最新推出的推理模型o3与o4-mini在OpenAI PersonQA基准测试中,分别有33%和48%的测试时间出现了幻觉现象,这一比例是旧版o1模型的两倍以上。
若幻觉问题难以彻底解决,那么一个值得追求的目标便是设计出能够辨识并呈现自身不确定性的系统。人类亦需如此。随着人类与大型语言模型的互动越发频繁,我们不仅需学会理解和有效运用这一技术,还应持理性且包容的心态去接纳未知的各种可能性,同时也要深入探究其运作原理及潜在的限制。
随着人工智能及其他科技的日益兴盛与广泛渗透到日常生活中,人类愈发迫切地需要保持批判性的思考能力和持续的自我审视。若我们丧失了主动进行认知和判断的能力,那就等于放弃了作为人类所拥有的快乐与价值。
作者系中国科学技术大学计算机科学与技术专业博士,已在自然语言处理与人工智能领域发表了若干篇高水平的学术论文,并在微软以及我国众多知名互联网公司中担任过相关研究职务。