研究指出,仅靠扩大模型规模和增加数据量,难以构建通用的操作模型。因此,迫切需要探索更为高效的机器人操作建模策略。在此形势下,「动作链」(Chain-of-Action, CoA)技术应运而生,其能否为机器人操作领域带来创新性的突破,尚待观察。
传统建模局限凸显
目前,研究者们认识到,单纯通过扩大模型规模和数据量,并不能构建出通用的操作模型。在现有框架内,策略通常被调整为基于当前观察来预测接下来的短期动作,而非确保整个任务的顺利完成。这种限制导致机器人在执行任务时难以灵活调整,未能充分利用数据优势,限制了其在复杂环境中的运用。
「动作链」方法诞生
研究者针对传统建模的不足,提出了“动作链”(CoA)这一概念。与经典模式不同,它并非直接将观察结果映射为执行动作,而是从目标位置出发,逆向自回归生成轨迹点,并据此推断出可执行的动作。初步研究发现,在保持与ACT相同的基本结构的前提下,仅对建模方法进行修改,CoA的空间泛化能力便得到了显著增强。
逆向生成轨迹优势
CoA能够逆向生成针对特定任务的完整轨迹,并且这一生成过程是在自回归网络中进行的。每个后续生成的动作都是以代表最终目标的“关键帧”为依据,这样的设计使得最终执行的动作与最终目标紧密关联,从而显著提升了空间泛化能力。这种技术使得机器人能够更有效地适应各种操作环境。
统一自回归框架
CoA 将关键帧的识别与轨迹生成整合至一个自回归模型之中,实现了从端到端的训练过程以及高效的闭环执行。此外,该模型还展现出良好的可扩展性。这一做法简化了机器人操作模型的训练与执行流程,显著提升了系统的整体性能。
连续动作表征精细
离散动作的表示可能导致数值误差,为了确保动作轨迹的精确性,CoA 选择了连续动作表示方法,并引入了“潜在一致性损失”这一概念。此方法能够更准确地描绘动作细节,从而使机器人的操作更为精细,并提高了操作的精确度。
多词元预测补充
动作局部依赖关系的构建,是对全局与局部一致性原则的补充。以按钮操作任务为例,在插值和外推两种情境下,对各个模型的表现进行了测试。结果显示,CoA模型在外推情境下的成功率大约是插值情境下的一半,而ACT和DP模型在外推任务中几乎无法达成目标,这一现象揭示了不同建模方法在空间泛化能力上的明显差异。
通过构建逆向动作序列,CoA 对轨迹执行了严格的「全局-局部」结构限制,有效消除了累积误差,并增强了机器人操作的普遍适应性。实验数据表明,在无需扩大数据集和模型规模的前提下,其空间泛化性能相较于传统方法有显著进步。那么,您是否认为 CoA 技术将在未来的机器人操作领域中得到广泛的应用?