把RLHF带给VLA模型!通过偏好对齐来优化机器人策略,代码已开源


本文将介绍如何通过偏好对齐来泛化机器人策略

把RLHF带给VLA模型!通过偏好对齐来优化机器人策略,代码已开源

原标题:把RLHF带给VLA模型!通过偏好对齐来优化机器人策略,代码已开源
文章来源:机器之心
内容字数:4186字

GRAPE: 提升机器人策略泛化能力的偏好对齐框架

本文介绍了机器之心AIxiv专栏报道的最新研究成果——GRAPE (Generalizing Robot Policy via Preference Alignment) 框架。该研究由北卡罗来纳大学教堂山分校张子健等学者完成,旨在解决视觉-语言-动作(VLA)模型在机器人任务中泛化能力不足的问题

1. 研究背景与问题

现有的VLA模型通常依赖于对成功执行轨迹行为克隆,导致其在面对新任务时泛化能力较差。此外,微调方法带来的分布偏差也限制了模型对多样化操作目标(例如效率、安全性)的适应能力。

2. GRAPE框架及其优势

GRAPE是一个即插即用算法,通过偏好对齐来提升VLA模型的泛化能力,并支持将模型对齐到任意设定的目标。它具有以下三大优势:

  1. 轨迹级强化学习对齐:GRAPE在轨迹层面利用强化学习目标对VLA模型进行对齐,赋予模型全局决策能力,而非简单的行为克隆。
  2. 隐式奖励建模GRAPE隐式建模了成功和失败尝试中的奖励,提升了对多样化任务的泛化能力。
  3. 可扩展的偏好合成算法:GRAPE采用可扩展的偏好合成算法,通过对轨迹进行排序,将VLA模型对齐到指定目标。

GRAPE框架包含三个主要部分:轨迹级偏好优化(Trajectory-wise Preference Optimization,TPO)、定制化偏好合成(Customized Preference Synthesis)和迭代式在线对齐(Iterative Online Alignment)。TPO通过改进的DPO损失函数(TPO_Loss)进行轨迹级别偏好学习;定制化偏好合成则利用大型视觉-语言模型分解复杂任务,自动引导偏好建模过程;迭代式在线对齐则通过循环迭代不断优化对齐过程。

3. 实验结果与分析

研究人员在真机和仿真环境下对GRAPE进行了评估。真机实验涵盖了五种分布外泛化(OOD)任务,结果显示GRAPE相较于OpenVLA-SFT模型取得了显著提升(20.7%~26.7%)。仿真实验也验证了GRAPE在面对不同OOD任务时的优越性能(8.0%~19.0%)。

此外,实验还表明GRAPE能够有效地将机器人策略与多种目标(如安全性、效率)对齐,例如,在追求安全性的目标下,碰撞率降低了44.31%;在追求效率的目标下,执行轨迹长度缩短了11.15%。

4. 结论

GRAPE框架是一种即插即用的VLA模型对齐方法,能够显著提升机器人策略的泛化能力,并支持对齐到任意指定目标,在多种机器人任务场景下均有应用潜力。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

暂无评论

暂无评论...