各位看官听好了!现在的AI发展得那叫一个眼花缭乱,但咱今天说的这个V - JEPA 2,那可是和市面上那些写作、聊天类AI大大不同,到底不同在哪?且听我慢慢道来。
AI新方向:AMI愿景
啥是AMI?这AMI可不简单!它强调AI不能只靠语言处理能力,得有对现实世界的抽象建模能力。比如咱看视频、听音频,人能理解里面的事,AI也得通过观察这些多模态数据,形成内部世界模型,理解物理规律!而V - JEPA 2就是Meta研究团队朝着这个方向进攻的关键筹码这可是意义非凡
V - JEPA 2 核心特征
V - JEPA 2有12亿参数!它最厉害的核心就是围绕“预测”这事。以往的很多AI只是被动识别视频画面里的物体和动作,但V - JEPA 2可不一般,它能基于画面推测接下来会发生啥。就好像咱看电视剧,能猜到后面的剧情走向似的,这多牛虽然大语言模型LLM擅长处理语言符号,但对物理世界的真实理解,它还是难以跨越这道坎儿。
迈向“模拟器”之路
Meta有着大胆的想法,试图用AI构建“模拟器”,说直白点就是行动前先在脑子里推演结果,V - JEPA 2就是达成这一目标的关键。它大概分三个步骤,其中第二阶段加入长达62小时的机器人数据来训练模型。系统设置视觉子目标,模型引导机器人一步步完成任务,这就跟人跟着示范学习干活一样,太有意思
物理判断挑战
Meta团队用游戏引擎弄出成对视频测试模型。一个视频正常,另一个有违反物理规律的事,像物体悬空、穿墙、瞬移,让模型判断哪个不合理。这对于咱人来说容易得很,但现在的AI面对基础物理常识就跟个新手似的,还老是判断不准。传统的视频问答模型很多时候是靠猜答案,而不是真看懂视频内容。
因果关系评估
有一个专门的测试集叫CausalVQA,是用来评估AI模型能不能理解视频事件因果关系的。并且在目标规划方面,模型得倒推实现路径,规划好达到目标的步骤,这可是通向AI Agent关键能力之一。以前那些AI在面对这种带有因果关系和目标规划的任务时,真的就是一团乱麻,理不清思路
未来发展展望
目前V - JEPA 2只在单一时间尺度上学习和预测。Meta团队说未来要开发多时间尺度的分层JEPA模型,能完成像“洗碗”“烘焙”这种分步骤的复杂任务。咱得明白,要让AI真正从大脑走向身体,光靠大模型堆词汇可不行,得先掌握物理世界的“因果律”。
大家说说,你们觉得未来AI能像人一样具备物理推理能力,完全理解现实世界吗?