具身智能未迎‘GPT时刻’？模仿学习困境待

研究指出，仅靠扩大模型规模和增加数据量，难以构建通用的操作模型。因此，迫切需要探索更为高效的机器人操作建模策略。在此形势下，「动作链」（Chain-of-Action, CoA）技术应运而生，其能否为机器人操作领域带来创新性的突破，尚待观察。

传统建模局限凸显

目前，研究者们认识到，单纯通过扩大模型规模和数据量，并不能构建出通用的操作模型。在现有框架内，策略通常被调整为基于当前观察来预测接下来的短期动作，而非确保整个任务的顺利完成。这种限制导致机器人在执行任务时难以灵活调整，未能充分利用数据优势，限制了其在复杂环境中的运用。

「动作链」方法诞生

研究者针对传统建模的不足，提出了“动作链”（CoA）这一概念。与经典模式不同，它并非直接将观察结果映射为执行动作，而是从目标位置出发，逆向自回归生成轨迹点，并据此推断出可执行的动作。初步研究发现，在保持与ACT相同的基本结构的前提下，仅对建模方法进行修改，CoA的空间泛化能力便得到了显著增强。

逆向生成轨迹优势

CoA能够逆向生成针对特定任务的完整轨迹，并且这一生成过程是在自回归网络中进行的。每个后续生成的动作都是以代表最终目标的“关键帧”为依据，这样的设计使得最终执行的动作与最终目标紧密关联，从而显著提升了空间泛化能力。这种技术使得机器人能够更有效地适应各种操作环境。

统一自回归框架

轨迹规划仿真_轨迹分析模型_

CoA 将关键帧的识别与轨迹生成整合至一个自回归模型之中，实现了从端到端的训练过程以及高效的闭环执行。此外，该模型还展现出良好的可扩展性。这一做法简化了机器人操作模型的训练与执行流程，显著提升了系统的整体性能。

连续动作表征精细

离散动作的表示可能导致数值误差，为了确保动作轨迹的精确性，CoA 选择了连续动作表示方法，并引入了“潜在一致性损失”这一概念。此方法能够更准确地描绘动作细节，从而使机器人的操作更为精细，并提高了操作的精确度。

多词元预测补充

动作局部依赖关系的构建，是对全局与局部一致性原则的补充。以按钮操作任务为例，在插值和外推两种情境下，对各个模型的表现进行了测试。结果显示，CoA模型在外推情境下的成功率大约是插值情境下的一半，而ACT和DP模型在外推任务中几乎无法达成目标，这一现象揭示了不同建模方法在空间泛化能力上的明显差异。

通过构建逆向动作序列，CoA 对轨迹执行了严格的「全局-局部」结构限制，有效消除了累积误差，并增强了机器人操作的普遍适应性。实验数据表明，在无需扩大数据集和模型规模的前提下，其空间泛化性能相较于传统方法有显著进步。那么，您是否认为 CoA 技术将在未来的机器人操作领域中得到广泛的应用？

黄仁勋出席链博会！CUDA究竟是啥？普通人真