Humanoid Locomotion as Next Token Prediction
标题(Title)
Humanoid Locomotion as Next Token Prediction
借鉴自然语言处理的方法,训练人形机器人
摘要(Abstract)
本论文提出了一种将类人机器人控制问题转化为下一个令牌预测问题的方法,类似于自然语言处理中的下一个单词预测。这一方法通过自回归地预测传感器和运动轨迹,训练了一个因果transformer模型。
背景(Background)
研究背景
在过去的十年中,人工智能(AI)领域展示了大型神经网络在互联网上的大规模多样化数据集上训练后,在各种环境中取得了令人印象深刻的结果。特别是,通过生成模型对大规模语言数据进行训练,这些变压器模型(如GPT)能够进行下一个单词预测,并获得丰富的语言表示。
研究问题
研究人员提出的问题是,类似的建模技术是否可以应用于感官和运动表示的学习?虽然在高维视觉数据和机器人操控领域已经看到一些成功,但在更广泛的感官运动表示学习方面,特别是机器人控制方面,这一领域仍然尚未充分探索。
研究目标
本研究的目标是将类人机器人控制任务转化为对大规模感官运动轨迹数据建模的问题。与语言模型类似,研究人员训练了一个通用的变压器模型来自回归地预测移位输入序列。不同于语言数据,机器人领域的数据是高维的,并包含多种输入模式,如传感器(关节编码器或惯性测量单元)和运动指令。
主要内容(Main Content)
数据集
数据集包含来自不同来源的感官运动轨迹:
- 神经网络策略:使用大规模强化学习训练的策略生成的完整轨迹。
- 基于模型的控制器:来自Agility Robotics控制器的轨迹,包含完整观测数据但缺少动作数据。
- 人类动作捕捉:从AMASS库中的人类动作捕捉数据,通过逆运动学重定向到机器人上。
- YouTube视频:从YouTube视频中提取的人类运动轨迹,通过3D重建和逆运动学进行处理。
模型架构 - 输入嵌入:
- 将传感器和运动数据转化为嵌入向量。
- 不同模态数据使用独立的线性投影层。
- 自注意力层和多层感知器(MLP):
- 多头自注意力机制用于捕捉长距离依赖关系。
- 每层包含层归一化和残差连接,确保训练稳定性。
- 因果遮掩:
- 通过因果遮掩,确保每个位置的预测仅依赖于该位置之前的输入,保证预测的因果关系。
- 预测与损失函数:
- 使用高斯分布假设,通过最小化均方误差来训练模型。
- 对于缺失模态的数据,用掩码令牌替代,并忽略对应部分的损失。
模型训练
- 目标函数:
- 对轨迹数据集中的负对数似然进行最小化。
- 针对每个输入令牌预测下一个相同模态的令牌。
- 联合训练:
- 同时在完整和不完整轨迹数据上进行训练。
- 对于缺失模态的轨迹数据,通过掩码令牌处理,保持输入输出格式的一致性。
模型推理
- 自回归预测:
- 模型在推理时依赖于过去的观测和动作,逐步预测下一个动作。
- 使用实际观测数据和预测的动作作为下一步的输入,保持预测的一致性。
实验设置
现实世界测试:机器人在各种地面条件下表现出良好的行走能力,适应复杂的城市环境。
跟踪和预测误差:跟踪误差和预测误差高度相关,低预测误差意味着高命令跟随准确性。
扩展与泛化能力:增加训练数据量、上下文窗口长度和模型参数量可以提高模型性能,模型能够适应未见过的命令。
缺失数据处理:联合训练策略显著提升了模型性能。
消融研究:验证了不同设计选择对模型性能的影响,确定了模式对齐、联合训练和状态-动作预测的优越性。
评价和感想(Evaluation and Reflections)
简单了解一下。
未来研究方向(Future Research Directions)
潜在的改进方向
- 数据扩展:
- 进一步扩展和多样化数据集,可以包括更多不同类型的运动任务和环境数据,以增强模型的泛化能力。
- 模型优化:
- 探索更复杂的模型架构和训练技术,以提高模型在处理高维、多模态数据时的效率和准确性。
- 应用扩展:
- 将该方法应用于其他机器人控制任务,如手臂操控、路径规划和复杂任务执行,验证其在不同任务中的适用性和有效性。
- 长期稳定性测试:
- 在更长时间和更复杂环境中测试模型的稳定性和鲁棒性,确保其在实际应用中的可靠性。
参考文献(References)
https://arxiv.org/html/2402.19469v1
Radosavovic, I., Zhang, B., Shi, B., Rajasegaran, J., Kamat, S., Darrell, T., … & Malik, J. (2024). Humanoid Locomotion as Next Token Prediction. arXiv preprint arXiv:2402.19469.