今年二月,DeepSeek迅速走红,引起了国内外广泛关注。事实上,在那时之前,中国信息通信研究院的模型评测小组已察觉到国内模型性能的显著进步,这一发现中就包括了该院人工智能研究所所长魏凯的观点。
魏凯指出,在2024年这一年里,国内众多大型模型团队,如DeepSeek等,持续从多个维度发力,致力于提高模型的表现力,几乎每个月都能观察到它们取得的最新成就。在2024年4月的测试中,DeepSeek的模型性能尚处于中下游水平,但到了8月,其版本已跻身TOP10行列,而到了10月,更是跃升至前列。12月推出的DeepSeek-V3更是脱颖而出,荣登当时基础能力排名第一的宝座,且其开源性质更显其非凡之处。
中国信通院隶属于工业和信息化部,是一家科研性质的事业单位。该机构在人工智能这一领域,负责提供决策支持、开展新技术研究、制定相关标准、进行检验检测、提供咨询服务以及推动国际合作等多项工作。2023年,魏凯所率领的团队成功推出了“方升”大模型基准测试体系。该体系以“人工智能关键技术与应用评测部重点实验室”为依托,精心制定了测试标准,并搭建了测试平台及数据集。团队定期对全球范围内的各大模型进行检测,现已累计构建了近700万条测试数据集。
“方升”作为战国时代的度量衡基准器具,同时也是目前所存最古老的此类标准器。魏凯指出:“目前无论是国内还是国外,大模型基准测试数量众多,然而却普遍缺少统一的测试方法和体系,作弊刷榜现象也屡见不鲜。因此,我们推出‘方升’,旨在促进大模型基准测试的标准化进程。”
至2024年年末,我国工业和信息化部正式组建了人工智能领域的标准化技术委员会,魏凯被任命为该委员会的秘书长,全面负责日常工作的领导与执行。
至六月底,《中国企业家》杂志对魏凯进行了专访。魏凯,一位资深的行业专家,对大型模型和当前备受关注的智能代理持有独到的见解。以下是访谈的详细内容(部分内容已删减):
一、DeepSeek一直在优化
《中国企业家》报道指出,根据中国信通院的测试结果,我们可以了解到在国内有哪些模型的表现相对更佳。
魏凯表示,经过过去一年的测试,通义千问、DeepSeek、豆包、混元、文心等模型的表现持续出色。同时,他们还对OpenAI、Anthropic、谷歌的模型进行了测试,这些模型同样表现出色。根据最新测试结果,在基础模型TOP10榜单中,大约有6个是中国模型,而美国模型则有4个。
然而,榜首的位置时常发生变动,去年12月DeepSeek在大型模型领域独占鳌头,然而春节过后,千问模型跃居首位,然而好景不长,OpenAI很快又重返榜单之巅,紧接着,谷歌的Gemini模型也紧随其后,迎头赶上。
我们注意到一个情况,近期大家更新内容的速度明显加快,这使得TOP1的模型在该位置停留的时间显著缩短。在过去的半年里,基础模型的更新变得频繁,它们在性能上相互竞争,排名也频繁变动。然而,在每一次的榜单中,总是那几款模型的新版本占据了榜单的前列。
《中国企业家》报道,有人比喻大模型如同市场上的海鲜,其新鲜度可能仅维持三个月。
魏凯表示,目前距离三个月的时间可能还不到,短短十几天内情况就会发生显著变化。回想起去年五月,OpenAI的GPT-4o模型堪称顶尖,它稳居榜首的位置长达200余日。然而,时至今日,排名每过十几天就会发生一次变动,竞争之激烈可见一斑。
这也是导致当前大型模型使用者数量逐渐减少的原因之一,因为每一次的训练成本至少需要几百万美元,而且其保鲜期相当短暂。一旦完成训练,不久之后便需要再次进行训练,因此,要持续推动基础大型模型的创新,就必须拥有强大的资源支持。
《中国企业家》报道,DeepSeek最新推出的R1-0528版本着重于后训练技术,这一转变是否预示着行业趋势?部分知名模型公司已放弃预训练,转而专注于后训练领域。
魏凯表示,无论是后续训练还是前期训练,都属于训练过程的一部分。对于应用这些模型的企业而言,它们在训练过程中的参与度将逐渐降低。部分企业可能会进行一些细微的调整,然而,随着基础模型能力的迅速更新,需要调整的用户企业数量也在减少。对于众多面向用户的企业而言,运用提示词工程、检索增强以及工作流等工程化手段,充分挖掘大模型潜力,打造适用于特定场合的智能体,其重要性日益凸显。与此同时,围绕这一需求领域,创新与创业的机遇也将日益增多。
《中国企业家》:同样的大模型,能不能用好差别也很大?
魏凯表示,提问的质量直接影响到大模型的回答效果,这一点我们都有切身体会。因此,编写提示词并非易事,需要一定的技术。此外,在提示词的基础上,还引入了工作流和Agent。以Manus和Cursor(AI编程智能体公司)为例,他们并不自行开发基础模型,而是选择调用他人的成果。依托于他人的大型模型,我们能够打造出高阶智能体,其技术要求同样不低,然而这并不要求我们进行大规模的资金投入。
《中国企业家》报道,智谱AI透露,他们计划持续进行预训练工作,并坚定不移地致力于实现通用人工智能(AGI)的目标。
魏凯表示,智谱的技术团队实力不容小觑,他们不仅重新整合了资源,更是持之以恒地进行长期投入。在基础模型竞赛中,不仅要考量技术团队的实力,还要评估他们的耐力,“粮食”储备是否充足,这一点至关重要。
《中国企业家》:通向AGI必须得靠大模型预训练吗?
魏凯指出,大量数据与强大算力的投入,对于增强大模型的基础能力极为关键。这种预训练过程,相当于让大模型广泛阅读和练习题目,类似于在学校中的学习过程。这些数据源自人类长期积累,本质上是一种向人类学习的方式。然而,预训练并非提高模型能力的唯一途径,强化学习在模型后训练阶段同样具有巨大的提升潜力。强化学习并不过分依赖于人类提供的数据,它更注重从实际操作的经验中吸取知识,这种学习方式可以比作是在实际工作中积累经验。
当前,我们必须对过分夸大大模型功能的倾向保持警觉,避免陷入一种误区,即误以为大模型具备无与伦比的能力。这种看法并不准确。在产业化的应用场景中,我们应当进行细致的评估,明确大模型的能力范围,并将具体任务需求与模型实际能力进行精确对接。若让大模型承担其不擅长的任务,必然会导致问题出现。
在运用大型模型时,我们应着重发挥其认知与逻辑推理的能力,不宜单纯依赖其输出的客观性数据。
《中国企业家》:未来能消除这种幻觉或者错误吗?
魏凯表示,总体目标在于降低幻觉出现的概率,然而现有的技术路径尚无法确保完全消除幻觉现象。在生成内容的过程中,大模型主要依赖神经网络参数进行“回忆”,而非进行精确的查询。
《中国企业家》:外挂知识库可以解决这个问题吗?
魏凯提出,将那些确凿无疑的信息存入数据库,并通过大模型进行检索,这样能够显著降低生成错误信息的可能性。这类似于律师或法官在法庭上辩论时,若需引用法律条文,必须查阅原始文本,以确保引用的准确性。
在面临一些庄重场合时,我们仍需依赖精确的查询,因此,一款真正的人工智能应用软件,其构成要素包括大型模型、数据库、知识库以及众多可调用的工具,它并非仅能依赖模型本身来满足各种需求。
模型就好比一个中枢神经体系,它具备调度功能,但无法实现百分百的准确记忆,且不会亲自执行任务。若要具备执行任务的能力,还需借助其他工具,即所谓的Agent。
二、Manus本质上是一堆提示词
《中国企业家》:Agent今年备受关注,它为什么这么火?
魏凯指出,Agent软件是在大型模型之上运行的,它借助大模型的意图解析和策略规划能力,运用专业工具,实现了复杂功能的执行。实际上,关于Agent的讨论在两年前就已经在行业内展开,到了2023年年中,信通院发布的人工智能十大关键词中,Agent已经被收录其中。在这两年间,随着基座模型水平的提升,Agent的智能程度也在持续进步。
过去的智能体需要人工编写提示词,构建工作流程,明确指示其每一步应做什么,接下来做什么,再之后做什么。而现在的智能体能够自主规划工作流程,生成思维链条。与两年前依赖人工提示词和流程的智能体相较,其智能程度有了显著进步。人类的工作逐渐减少,AI的自主性则愈发增强。
《中国企业家》杂志提问:在未来的机器与人类交流过程中,我们是否还需要对提示词的准确性有如此高的要求?
魏凯提到,当初DeepSeek推理模型刚问世时,确实有专门的指导强调,用户不宜编写提示词,以免干扰模型独立思考的能力。然而,时至今日,我们仍需重视提示词的作用。实际上,提示词依旧至关重要。目前,Agent系统内置了精心编制的提示词,这些提示词的质量越高,模型的潜力就能得到更充分的挖掘,从而提升整体性能。
《中国企业家》指出,实际上,大多数人在面对大型模型时,往往难以提出高质量的问题,甚至不清楚自己应该提出哪些问题。
魏凯指出,对于同一模型,若提供优质的提示词与劣质的提示词,所获得的答案质量差距显著,这正是Agent层或应用层企业所具有的价值所在。
《中国企业家》提问:随着未来模型能力的持续增强,这种提升是否将涉及并取代现有Agent的创业领域?
魏凯表示,从技术层面来看,大型模型相当于一个操作系统,而Agent则相当于一个应用程序。就功能而言,Agent颇似一位虚拟的数字员工。展望未来,各类针对特定岗位的Agent将逐渐涌现,每个人或许会拥有众多这样的Agent,其中一些是生活上的助手,另一些则是工作上的帮手。
《中国企业家》指出,依照这一推理过程,未来出现“单打独斗的公司”或“超级个体”的现象并非不可能。
魏凯表示,未来充满无限可能,智能代理将进化为数字员工。人与这些数字员工协同工作,彼此能力将不断攀升。因此,那些擅长运用人工智能的人,将能够掌握近乎无限的数字员工,进而成为超级个体。在这种情况下,一个个体就能指挥如同千军万马般的庞大团队。从这个角度来看,一人公司不再是遥不可及的梦想。
《中国企业家》:现在大家都在说,新的入口争夺战。
魏凯表示,目前没有任何一家公司展现出显著的优势,市场正处于一种僵持不下的局面。众多企业纷纷摩拳擦掌,争相抢占市场份额,其中包括手机操作系统提供商、众多智能硬件企业,以及超级应用开发商,甚至新兴的创业公司也加入了这场争夺用户入口的竞争。
《中国企业家》提问:Agent产品是否已经达到了成熟的形态?它的未来是否还有进一步发展的可能?
魏凯表示,目前尚早,所谓的Agent或许并非一款独立的产品,用户甚至可以自行打造,但其功能相对单一。展望未来,Agent市场前景广阔,企业内部将涌现出众多具备多样化功能的Agent。因此,Agent或许并非单一产品,而是众多功能的集成体,然而,能够开发Agent的平台可能仅限于少数。
《中国企业家》:未来底座模型+应用是一个怎么样的格局?
魏凯提到,这或许是一个以个位数计数的基座模型,接着配合若干个针对不同垂直行业的应用平台,亦或是高度成熟的智能体,共同构建起一个数字劳动力市场。
《中国企业家》报道指出,一些明星级模型公司,例如月之暗面的Kimi,它们拥有庞大的用户群体,这样的规模是否能够提升模型的功能性?
魏凯表示,这两者并非同一概念。超级APP仅能积累较为表面的数据,而大量用户信息并不存储在APP中。因此,对于聊天机器人这类超级APP来说,若不增加其他深层次的应用功能,它们将难以建立起自己的数据循环。
三、被低估的谷歌
《中国企业家》:谷歌的模型能力现在也跟上来了。
魏凯表示,国内众多行业,涵盖了媒体领域,对大语言模型以及聊天机器人等AI应用的发展表现出了极高的关注。相比之下,对于谷歌DeepMind所倡导的AI发展路径,关注度则显得相对较低。
DeepMind所规划的强化学习路径,以及其在蛋白质、材料科学、生物学、数学等众多领域所研发的专项模型,对于科学发展的推动作用不言而喻。若这些技术得以实现产业化,无疑将对我国实体经济带来深远的影响。
因此,AI大模型的领域极为宽广,语言及多模态模型只是其中的一小部分。AI在创新和研发领域的应用潜力巨大,有望极大地提升人类的创新步伐,这一点值得我们高度重视。
《中国企业家》:谷歌被低估了吗?
魏凯表示,外界对谷歌的估计明显不足。诸如Transformer、MoE、蒸馏等关键技术均源自谷歌的创造,此外,谷歌开发的Gemini大模型在排名上始终位于前列,同时,云服务、大数据等理念及其核心技术的提出,也都是谷歌的先河。
观察谷歌(DeepMind)的战略规划,那些才是真正具有高价值潜力的领域。众人之所以认为聊天机器人难以找到合适的应用场景,是因为聊天的本质如此,但DeepMind的探索路径却有所不同。它能够优化生产流程,发掘新型药物和材料,对实体经济的贡献尤为显著。
国内已有部分企业着手开发这些领域,然而整体实力尚显不足,因为相关技术的挑战性极大。正如规模定律所揭示,只有当模型技术可行时,行业才能迎来如今的兴盛。尽管DeepMind的创始人哈萨比斯荣获诺贝尔化学奖,激发了业界的热情,但该领域的技术壁垒和失败风险均较高,因此需要持续且深入的研究与投入。
《中国企业家》杂志报道,哈佛大学的李飞飞博士提出了一个名为“世界模型”的概念,强调该模型不应仅局限于语言层面,而应进一步探索并融入物理世界的本质。
魏凯表示,当前的大规模模型在处理空间关系方面尚显不足,同时也不擅长把握时间序列、因果关系以及物理定律等复杂概念。尽管大语言模型能够掌握语言序列的分布,并借此来解读世界,但这种理解方式既简单又不够可靠。为了使AI达到通用智能的水平,我们必须构建一个全面的世界模型。
《中国企业家》:AGI什么时候会到来?
魏凯表示,他与山姆·阿尔特曼(OpenAI的联合创始人)等人的看法一致,认为“AGI”这一概念并非关键所在。他们更关注的是AI在当下是否比过去有所进步,以及未来是否会超越现在。对于那些目标易于界定、数据易于采集的任务,AI的突破速度很快,其表现甚至超越人类。例如,自动驾驶和编程都属于这类任务,预计这些领域将是最先实现突破的。
现在,各种行业都在找这种先导场景。
《中国企业家》报道,5月26日,红杉中国正式发布了全新的AI基准测试工具xbench。那么,为何基准测试如此关键呢?
魏凯表示,目前的人工智能技术主要依赖神经网络进行训练。然而,神经网络犹如一个神秘的“黑盒子”,我们难以窥见其学习成效。这就像评价学生的学业成绩,我们通常需要通过考试来检验,比如月考、周测、期中考试和高考等。
当前的人工智能技术亦是如此,所谓的神经网络训练过程,我们称之为“涌现”或“生成”,其结果往往难以预料,这主要是因为其本质上是无法完全透明的“黑盒子”。我们只有通过一系列的测试,才能判断其能力是否已经达到了预期的水平。而所谓的测试基准,则是用来衡量大型模型性能优劣的重要工具。
因此,每当大型模型企业推出新型号,它们都会援引一项测试成绩以展示其产品的性能表现;在内部,研发团队同样需要参考这些评测数据,以确定是否应当终止训练过程;若未达到既定目标,则必须持续进行训练。
应用开发商同样需要对大型模型进行测试,以判断其优劣。总体而言,基准测试充当着引领技术发展的指南针,因此,定义基准测试的人也就掌握了发展的方向。这是因为神经网络在人工智能领域之所以强大,就在于它能够根据设定的目标进行学习,并逐渐接近这些目标。
《中国企业家》杂志提出疑问:我国信通院人工智能研究所研发的“方升”大模型基准测试体系,相较于其他Benchmark,究竟有哪些独特的差异之处?
魏凯指出,红杉中国推出的xbench并非仅限于早期的基准测试,它更侧重于模拟真实应用场景。例如,它考察AI是否能在办公室胜任文员或客服接线员的工作,而非仅仅依靠学科考试题,如高考题或研究生水平的推理测试(GPQA)。虽然这些学科考试类的评测在学术领域具有一定的价值,但它们并不能准确反映AI在实际用户场景中完成任务的能力。
我们的“方升”大型模型基准测试旨在针对产业实际应用进行定向,其核心目标在于促进人工智能的实际操作能力,并赋予实体经济以支持与动力。
《中国企业家》:这听起来仿佛是针对Agent的测试技能,那么你们又是如何实现这一点的呢?
魏凯表示,首先,我们的试题包含了学科考试题型,同时增补了许多针对特定行业的题目。例如,考察其是否能够理解接线员的问题,这使我们更加注重行业应用方面的试题。
其次,当前的大型模型在测试过程中极易受到欺骗,众多Benchmark的数据集均为公开资源,有人将其掺杂进训练数据之中。由于大模型已经接触并解答过这些题目,因此自然能够给出正确答案。然而,我们目前所使用的许多题目并非公开可得,而是由我们内部独立研发的。
我们的数据库规模已相当可观,存储着七八百万条信息。在每次测试过程中,我们会从中挑选大约一至两万道题目进行测试。测试完成之后,这些题目便不再具有使用价值。
第三,我们实现了测试方法论的标准统一,并将其公之于众,编制成蓝皮书,供大家共同参考。此外,我们还推行了同行评审制度,允许大家提出质疑和批评。
《中国企业家》:谁能定义基准测试,谁就能定义AI。
魏凯提到,自2020年以来,大模型的发展历程已有五年之久。众人皆以同一目标为驱动力,致力于在考试中获取高分。那么,为何中、美两国在大模型领域间的差距逐渐缩小呢?原因在于,大家追求的目标相同,目标已经明确,且发展路径也变得清晰可见——即通过扩展规模(Scaling)来实现。
到了AI下半场,这个目标需要重新思考。
当前的大型模型更注重内容的“产出”,向用户提供了海量的信息,但这同时也引发了新的信息过载问题,实际上并未减轻人们的劳动负担。在接下来的发展阶段,主要任务是精简输出内容,提高思考的深度,增强用户的使用效能,因此,对意图理解、任务规划、深入研究以及软件工程等方面的能力显得尤为关键。
通过实施标准化测试流程,我们旨在引领和促进大型模型更好地满足产业实际需求,攻克高价值应用场景中的核心难题,进而增强人工智能在实体经济中的助力作用,这正是我们“方升”大模型基准测试体系构建的目标所在。