ViGaL新范式：AI从简单游戏领悟跨领域推理及直觉能力？

近期，一项针对模型训练的研究成果受到了广泛关注。研究者观察到，模型在参与基础游戏的过程中，其跨领域应用能力显著增强。这一进步程度大连市同乐中小企业商会，甚至超越了当前最先进的大规模模型。这一新发现已推动业界对模型训练新方法的深入研究。

简单游戏训练效果惊人

研究人员对Qwen2.5 - VL - 7B这一基于7B参数的多模态模型进行了后续训练，使其能够参与包括“贪吃蛇”在内的多种街机游戏。经过训练，该模型不仅将所学技能扩展至其他游戏领域，而且在多模态数学测试以及多学科问答任务上均取得了显著的提升。在未经解题训练的前提下，RL模型的表现已经超越了GPT-4o等顶级的大规模语言模型，甚至在特定领域的后训练模型之上，这些成就引起了广泛的关注。

保留通用视觉能力

多模态推理能力得到了显著提升，与此同时，维持原有的通用视觉能力显得尤为难得。一般情况下，专用模型在两者之间难以做到平衡，但在此项实验中，模型在增强多模态推理能力的同时，并未对通用视觉能力产生负面影响。在更广泛的MLLM基准测试集中，ViGaL Snake + Rotation展现出卓越的表现；与此同时，那些经过强化学习（RL）方法训练，数学性能有所增强的模型，其通用视觉能力普遍遭遇了明显的下滑。

游戏带来认知技能迁移

研究者指出，游戏对于增强普遍的认知能力具有积极作用，比如空间识别能力和序列规划能力，这些能力在执行多模态推理任务时显得尤为重要。以“旋转”等游戏为例，它们可以提升模型在解决涉及角度和长度等数学问题时的表现，进而使模型能够将游戏中的推理方法应用于解答数学问题以及解决其他跨学科问题的后续任务中。

游戏训练思维更灵活

在数学问题的监督微调或强化学习（RL）领域，游戏训练模式凸显出其特有的优势。此训练方法促使模型形成更为灵活的思考模式及策略。相较之下，数学问题的训练模式较为单调。然而，游戏环境所具备的丰富多样性使得模型在应对复杂情境时更为得心应手。以贪吃蛇游戏为例，模型需规划行进路径，此类训练有助于增强模型的思维灵活性。

多类游戏提升推理能力

各类游戏在增强模型性能方面各有其特点。Snake游戏在CLEVR测试及基准测试中均表现出色，而Rotation游戏在几何推理方面尤为突出。通过结合Snake游戏与Rotation游戏的训练，模型得以掌握相互补充的技能。总体来看，基准测试的平均得分是63.1%，这一数据充分显示出将视觉游戏作为训练方式具有极大的发展潜力。

新训练范式前景广阔

研究结果表明，通过搜集特定领域的相关资料，并构建出具有扩展性和易于管理的预游戏环节，能够显著增强模型在后续任务中的推理效能。此方法不仅具备广泛的适用范围，而且无需依赖大量针对特定领域的训练数据。这种创新的训练模式为模型的发展拓展了新的途径，值得行业内部进行深入探究和持续性的探索。

大家对运用游戏进行模型培育的途径，是否预见到它在将来有可能应用到更广泛的领域？我们期待您的见解加入讨论，并对本篇文章给予点赞及分享。

ViGaL新范式：AI从简单游戏领悟跨领域推理及直觉能力？

物流路径等优化任务难度高，AI 能否胜任？Sakana AI

6月17日海关罚没LABUBU玩偶等在京东平台拍卖，19.1

物流路径等优化任务难度高，AI 能否胜任？Sakana AI

6月17日海关罚没LABUBU玩偶等在京东平台拍卖，19.1

相关文章