谁曾料想,那些承载着童年美好回忆的宝可梦,如今竟然成为了检验大型模型性能的标杆。
在众多人的孩提时代,《宝可梦》这款游戏留下了深刻的印记——其操作简便,即便是年幼的孩子也能轻松掌握。
要想顺利通过这款游戏,必须精心制定策略,并且投入相当多的时间。
这款游戏,承载着无数人的童年记忆,如今却不知不觉地变成了众多科技公司竞相测试最新大型语言模型的宠儿。
从Anthropic公司到Google,再到Claude和Gemini等模型,众多企业竞相展示它们在“通关宝可梦”游戏中的出色表现,以此作为证明自身具备推理、规划和长期记忆能力的有力证据。
而且通关后,谷歌的CEO劈柴都要亲自发帖来庆祝。
实在让人感到惊讶,都到了2025年,AI成功通过《宝可梦》游戏竟然还能成为一条重大的新闻。
何况,这款宝可梦自1995年首次推出以来,已经过去了整整30年,那么,为何这款30年前的游戏却成为了测试当前最先进AI顶尖性能的标杆呢?
这是因为最先进的AI也不一定拥有人类幼儿的感知和行动能力。
莫拉维克悖论
在LLM问世之前,即1980年代,那些早期的人工智能系统已初露端倪,显现出了某种“智慧”的迹象。
人工智能领域的开拓者汉斯·莫拉维克、罗德尼·布鲁克斯以及马文·闵斯基等学者,揭示了一个引人深思的矛盾现象。
使电脑具备成年人的棋艺水平相对较为简单,然而,要赋予它一岁孩童般的感知与行为能力,则显得极其艰难,甚至可以说是不可能实现的。
史迪芬·平克,这位语言学家兼认知科学家,将其视为人工智能领域学者所取得的最为关键的研究成果。在长达35年的深入研究之后,他揭示了一个核心观点:
困难的问题是易解的,简单的问题是难解的。
四岁儿童的天生能力,诸如识别面部特征、握笔以及在家中行走、应答提问等,实际上却是至今在工程学领域最为棘手的难题。
随着新一代人工智能技术的问世,股票分析师和石化工程师需警惕其职位可能被机器所替代,然而,对于园丁、接待员以及厨师等职业来说,至少在未来十年内,他们无需过分担忧会被人工智能所取代。
这恰恰是所有顶尖模型所力求在宝可梦游戏中验证的——当前的大型语言模型是否具备感知能力?
克劳德·奥普斯4依旧在直播中畅玩宝可梦,这一过程已经持续了超过12万步。
宝可梦作为评测基准,合理吗?
宝可梦在评估现代大型语言模型方面越来越受欢迎,然而,它面临一个显著的难题——即现有的挑战普遍缺乏统一的标准。
Anthropic公司为Cladue模型配备了导航功能,并提供了读取游戏状态内存的辅助工具。
该模型在道馆中进行了数场对决,历经约35,000次游戏内操作,终于抵达了电系道馆的领队所在。
然而,Anthropic并未对何为“动作”给出具体定义,亦未明确指出允许进行多少次重试。
Google推出的Gemini 2.5 Pro版本已成功通关《宝可梦 蓝》,同时也在《宝可梦 红》这款游戏中赢得了第五个徽章。
然而,该系统需要借助额外的外部代码来获取更详尽的游戏状态文本信息,并以此为基础进行决策指导。
完成游戏的过程颇为耗时,仅是为了获得第五个徽章,玩家就必须投入超过500个小时的时间。
同时API的使用会产生大量费用。
如何将这款深受大模型喜爱的《宝可梦》游戏,转变为一个标准化的评估体系,乃至是适用于多种游戏的评估框架呢?
这就是我们今天所介绍的Lmgame Bench,该平台精心挑选了一系列难度适中的游戏,同时引入了分层次的测试系统,这使得它更适用于评估大型模型的真实性能。
请访问以下博客链接,以获取更多关于《精灵宝可梦红》的相关信息:https://lmgame.org/#/blog/pokemon_red。
这项测试标准由UCSD等重量级机构联合推出,深入探讨了利用热门视频游戏对现代大型语言模型进行评估的方法。
该研究论文的链接为:https://arxiv.org/pdf/2505.15146,请点击此链接查阅。
Lmgame基准测试
Lmgame Bench借助模块化的测试框架,其中包括感知、记忆以及推理等模块,全面提升了模型在游戏方面的功能。
这些测试工具使得模型得以通过循环往复的迭代过程,与模拟的游戏环境展开互动交流。
Lmgame-Bench实施了一种规范化的提示调整策略,旨在减少对提示的敏感度。
为了辨别模型性能而无需借助任何外部游戏构建工具,Lmgame Bench精心挑选了一系列难度适中的电子游戏。
这些游戏包括:
推箱子游戏的得分是根据玩家在所有关卡中成功推动至指定位置的箱子数量来计算的,这一统计涵盖了从极其基础的关卡到《Sokoban 1989》中最具挑战性的关卡,直至遇到第一个无法解决的困境。
超级马里奥兄弟这款游戏中,玩家的得分是通过累计马里奥在各个关卡中横向移动的距离来计算的,这一距离以游戏专用单位来衡量。该得分会在马里奥耗尽所有三条生命或成功通关最终关卡时停止累积。一般来说,那些在物理直觉和空间推理方面能力更胜一筹的玩家,往往能够获得更高的分数。
俄罗斯方块游戏中,得分由已登记的方块总数与清除的行数(每行乘以10分)相加得出,直至游戏结束。不同型号的俄罗斯方块持续游戏时长不一,主要看它们处理下落方块的高效程度。以o3-pro为例,它能够一次性清除超过10行方块,因此能确保游戏持续进行。
2048这款游戏中,方块数值相加(比如,两个2相加得到4)的累计总和将被记录,直到棋盘不再发生任何变化(即连续十个回合内既没有合并动作,也没有棋盘移动)。随后,我们将公布这些方块合并所累积的总得分。鉴于游戏进程可能超过十万步,这一得分统计便成为了衡量模型在长时间内表现能力的重要依据。
糖果消除指的是在限定为50步的对话过程中,成功消除的糖果累计数量。尽管这款游戏操作起来并不复杂,但它却能够充分展示模型在优化移动策略和清除糖果方面的实际能力。
逆转裁判要求玩家在案件各个阶段准确执行操作,如提交证据、选择对话等,累计正确次数直至耗尽五次失误机会(即生命值)。该游戏旨在对模型的语境感知及推理技巧进行评测。
模块设计
许多模型在视觉理解上存在脆弱性,导致对游戏状态频繁误判。
想要在游戏中取得成功,需要有效的记忆机制来实现长期决策。
Lmgame针对性的开发了三大模块。
感知模块负责将游戏初始画面或用户界面组件转化为有序的符号或文本形式,以此降低对易受损害的视觉感知的依赖程度。
内存模块负责保存近期状态、行为及反思记录,以此目的来减少动作范围,并助力于长远规划的实施。
推理环节:整合来自其他模块的全部信息,同时可选择启动连续链条式的推理解析。
o3玩2048的记忆模块展示
Gym风格标准接口
然而,研究人员指出,直接借助计算机对智能体进行基准测试存在着显著的不足之处。
每款游戏对电脑的操作需求各异,而仅凭屏幕截图进行观察,往往会导致感知上的偏差。
在对那些对延迟特别敏感的游戏进行测试时,若出现难以预料的延迟现象,这些问题便会显著降低测试结果的稳定性和对比度。
为此,研究团队开发了一套基于Gym风格API的标准化接口,旨在对评估设置进行统一管理。
通过整合轻量级的感知与记忆辅助功能模块,确保稳定提示效果,同时有效排除数据中的杂质。
实验结果显示,在13个顶尖模型中,Lmgame-Bench展现出一定的难度,但依然能够有效地辨别出各个模型之间的差异。
在排行榜的顶端,o3模型占据了一席之地,该模型因具备卓越的视觉辨识力、空间判断及长远规划技能而备受瞩目。
然而出人意料的是,尽管o3在2048、推箱子和俄罗斯方块游戏中取得了全面胜利,但在糖果消除这项游戏中却明显处于劣势。
目前,利用Lmgame所提供的开放源代码,任何人只需执行一个指令,便能够启动对任何兼容的模型与游戏组合的评估过程。
近期观察到的各模型进展充分显示,在处理数学和编程相关任务时,引入强化学习机制能够明显提升大型语言模型的推理效能。
即便是最基础的强化学习算法,亦能显著提升模型的规划与决策效能,这种效能在与复杂环境交互过程中尤为关键。
这些进展凸显了游戏环境作为评估LLMs的有效基准作用。
那些曾经广受欢迎的经典游戏,均经过精心策划,旨在对人类的思维与认知能力进行挑战。
这些游戏不仅极具价值,却尚未得到充分的运用,它们构成了AI基准测试的重要资源。
除了经典游戏之外,我们目前还拥有众多顶尖的3A级大型作品,展望未来,可以预见到评估体系将展现出极强的扩展性和广阔的发展前景。
Lmgame Bench的问世,正是在这一背景下为我们揭示了答案:真正的智能不仅体现在编写代码、解决数学问题,更在于能够在复杂、开放、动态的环境中进行持续的思考、规划以及行动。
而这场测试,还远未结束。