如果放弃生成式模型、不研究大语言模型,真能让AI靠着文本训练达到人类智慧水平吗?这可不得不打个大大的问号,咱们今天就来深入聊聊!
生成式模型的局限与重要性
现在很多观点提到生成式模型根本不适用于制作视频。目前那些能生成视频的AI模型,其实只是在生成漂亮图片,根本无法理解物理世界。要是彻底放弃生成式模型以及不研究LLM,仅仅依靠文本训练让AI达到人类智慧水平,简直就是异想天开。毕竟这样片面的训练太狭隘,和人类广阔而复杂的认知差距甚远。
文本训练AI的困境
人们总希望通过文本训练让AI接近人类的智慧。然而事实证明,只依靠文本训练AI难以达到人类的智慧水平。就拿那些专门针对特定领域问题的AI模型来说,如果问题表述标准,答案几秒内就能生成;一旦稍微修改问题表述,AI大概率会给出相同答案,因为它并没有真正去思考问题。
人类在训练中的“作弊”行为
于是就出现人类“作弊”的现象。为了让系统看似更智能,人们告诉系统该怎么回答问题、运用推理思维技巧,让系统产生更多的token,这不过是在白白消耗算力。这看似提升了回答,其实只是虚假的表象,并没有让AI真的获得更深刻的认知。
世界模型的构建
要想让AI理解世界如何运转,世界模型的构建极为关键。观察世界要通过感知模块,这个模块概括世界状态。但这个状态并非全部可观察,还得和记忆相结合,构成完整的世界模型。有了世界模型,我们就能预测一系列动作的结果,并把它用到任务目标设定里,来衡量最终状态是否符合预期目标。
机器学习的分层规划难题
在机器学习中,分层规划很常见,可每个层次的提示都靠手工输入。这太麻烦了,我们得训练架构让它自主学习抽象演示。不光是世界状态,连预测世界模型、不同抽象层次上的抽象动作它都能自行学习,只有这样,机器学习才能如同人类一样自动完成分层规划。
视频训练让AI理解世界
要使系统理解世界运转,可以借鉴训练自然语言系统的经验,用视频来训练AI。比如给系统一段视频,让它预测后面会发生什么。通过这样的训练能让AI理解世界的底层结构,而且用类似于JEPA架构能让AI学习消除无用信息,更好地做规划。
看完这些,大家是不是觉得目前让AI接近人类智慧的路还很长?你认为未来可以克服这些困境,让真正具有人类智慧的AI出现吗?欢迎在评论区分享你的看法!要是这篇文章对你有启发,不妨点赞、分享给更多朋友。