BRS——斯坦福李飞飞团队推出的全身轮式人形操作框架:推出遥操作接口JoyLo与全身视觉-运动注意策略WB-VIMA

张开发
2026/5/30 5:47:23 15 分钟阅读
BRS——斯坦福李飞飞团队推出的全身轮式人形操作框架:推出遥操作接口JoyLo与全身视觉-运动注意策略WB-VIMA
前言26年4月初一车企客户给我司寄来星海图R1 pro我特意发了个视频顺带回答做什么场景车企主要应用于插拔充电等场景机器人通过腕部/头部相机配合具身模型实现视觉与推理能力轮式与双足各自优势在哪轮式优势在于底盘稳定、节省平衡计算资源可专注精细化操作与精准定位节拍速度更可控————具体而言轮式人形干活的时候底盘可以相对会更稳一些包括像搬运这种任务当然双足的平衡性、稳定性也会越来越提高只是说在现阶段而言你轮式人形它底盘这种设计 可以使得它可以少花一些时间或者说少花一些计算用在这种平衡上它可以把更多的计算和投入花在这种(平地)干活层面上包括像一些精细化的操作、定位、精准度具体可以通过VLA结合强化学习的这种方案对吧此外我们可能会在双足上做一些这种验证然后跑完整个流程或者跑完整个算法验证之后但最终落地可能不一定是在双足上因为在纯机械臂或者说轮式人形它的一个节拍速度会相对更可控一些所以说我们视频号上发的有一些视频可能有的朋友就说你双足干活节拍这么慢你工厂肯定忍受不了其实那只是我们其中一个记录状态它不一定代表最终的一个落地的形态或者说最终状态再者本质上来讲我们有很多的一些后续的工程优化对吧包括算法模型的一些优化我们可能也不一定 把每一次优化都拍出来长沙具身团队为何成长快长沙团队快速成长源于十余年AI积累、大模型应用经验、南京/上海团队支持以及与行业互相启发的开放态度加上敢探索的专业精神和真诚服务客户的理念此外除了车企的这个插拔充电项目外我们还接到了两个利用轮式人形作卫生间清洁的项目从而也就关注到了本文要解读的斯坦福李飞飞团队推出的全身轮式人形操作BRS框架第一部分 BEHAVIOR ROBOT SUITE: StreamliningReal-World Whole-Body Manipulationfor Everyday Household Activities1.1 引言与相关工作1.1.1 引言如原论文所述诸如举起体积大且沉重的物体这类任务需要双臂操作[28,29]而在整个房屋中取回物体则依赖于稳定且精确的导航[30–32]在搬运杂货的同时开门则要求这两种能力的协调配合[33–35]此外日常物体分布在不同位置和高度上这就要求机器人能够相应地调节其可及范围为说明这一点我们对日常家务任务与场景中与任务相关的家用物体的空间分布进行了分析『图2日常家庭活动中与任务相关物体的生态分布。垂直距离分布中出现了多个不同的模态分别位于0.09 m、0.49 m、0.94 m 和 1.43m对应于物体通常被发现的典型高度』————值得注意的是垂直距离的多模态分布凸显了扩大末端执行器可达空间的必要性使机器人能够在广泛的空间构型范围内与物体进行交互那么机器人究竟如何才能有效地实现这些能力呢精心设计的机器人硬件——包括双臂、移动底座以及柔性躯干——对于实现全身操控是必不可少的 [17]然而这类设计也给策略的学习方法尤其是在扩展数据采集规模 [36–38] 以及对协调的全身动作进行精确建模方面仍面临诸多挑战目前的系统难以全面应对这些问题 [13,17,18,39–43]这凸显出在家庭任务中需要更合适的硬件、更高效的数据采集工具以及更完善的全身控制模型对此来自斯坦福李飞飞团队的研究者提出了 BEHAVIOR ROBOTSUITEBRS其paper地址为BEHAVIOR Robot Suite: Streamlining Real-World Whole-Body Manipulation for Everyday Household Activitiesv1版本提交余25年3月其作者包括Yunfan Jiang, Ruohan Zhang, Josiah Wong, Chen Wang, Yanjie Ze, Hang Yin, Cem Gokmen, Shuran Song, Jiajun Wu, Li Fei-Fei其项目地址为behavior-robot-suite.github.io具体而言这是一个用于学习全身操作、以应对多种真实世界家庭任务的综合框架『见图 1在BRS的支持下实现的日常家务活动展示了其三大核心能力双臂协调B、稳定且精确的导航N以及广泛的末端执行器可达范围R』BRS 通过两项关键创新见表 1同时解决硬件和学习层面的挑战『近期真实机器人框架的比较。BRS 具有很强的综合性集成了独特的全身控制接口 JoyLo以及用于学习全身视觉运动策略的新算法 WB-VIMA从而展示了多种前所未有的机器人能力』第一项是 JoyLo一种低成本、全身遥操作接口面向通用适用性设计并已在一台带有柔性躯干的轮式双臂操作机器人上完成具体实现第二项是 Whole-Body VIsuoMotor AttentionWB-VIMA策略这是一种新型学习算法能够高效建模协调的全身动作1.1.2 相关工作// 待更1.2 BRS的两项创新遥操作接口JoyLo与全身操作策略WB-VIMA1.2.1 JoyLo基于 Joy-Con 的低成本运动学孪生机械臂如原论文所述为实现对具有高自由度DoFs的移动操作机器人进行无缝远程操控并便于为策略学习收集数据我们提出 JoyLo一种具备成本效益的全身远程操控接口如图 3所示作者在 Galaxea R1 机器人上实现了 JoyLo。该机器人是一款带有 4 自由度躯干见附录 A的轮式双臂操作平台其设计目标详述如下『顺带一提尽管本文给出了 JoyLo的一个具体实现但其设计原理具有通用性可适配于类似的移动操作机器人』首先高效的全身控制全身机器人遥操作的方法在精度、效率、适用性以及用户体验方面存在显著差异一端是动力示教kinesthetic teaching它允许对机器人进行精确的物理引导 [44–47]但操作缓慢且难以扩展规模另一端是动作重定向motion retargeting技术 [18,48–57比如57是Anyteleop]该类方法消除了物理交互却面临“具身性”不匹配以及平台适用范围受限的问题为了在操作任务中兼顾直观性、易用性和精确度作者提出一种基于“木偶操控(puppeteering)”的方案使用与机器人运动学同构的双臂(kinematic-twinarms)并配备摇杆用于控制躯干和移动底盘具体而言作者使用现成的任天堂 Joy-Con 控制器因为其体积小巧、内置拇指摇杆并集成多功能按键能够支持丰富且可定制的交互功能如图 3 所示左侧摇杆用于控制移动底盘的速度右侧摇杆用于调节腰部与髋部姿态方向键用于改变躯干高度(类似于是站 是蹲)扳机键用于控制夹爪开合借助 JoyLo用户可以同时控制手臂运动、夹爪操作、上半身动作以及移动底盘导航从而实现一种高效的全身控制方式兼具精确性、良好的用户体验和可扩展性此外由主臂施加的运动学约束可防止操作员产生不可行或无法执行的动作从而确保演示过程平滑且可靠其次丰富的用户反馈JoyLo 通过双边遥操作[58, 59] 提供触觉反馈从而增强了遥操作能力而无需额外的力传感器[60, 61]JoyLo 机械臂在运动学上与机器人机械臂耦合作为领导者发出指令同时由机器人的关节位置进行正则化令和为它们各自的关节位置施加到JoyLo 机械臂上的力矩为其中表示关节速度而,和分别为比例、微分和阻尼增益。该反馈抑制了用户的突然动作并在机器人发生接触时提供与之成比例的阻力最后低成本与易获取性JoyLo 由 3D 打印连杆、低成本的 Dynamixel 电机以及 Joy-Con 控制器构成整体成本不足 500 美元此外其模块化设计确保所有部件都可更换从而最大限度减少停机时间并消除不必要的维修成本。且BRS 提供带有 Python 接口的直观实时控制器以实现高效操作1.2.2 WB-VIMA全身视觉-运动注意策略WB-VIMA这是一种基于 Transformer 的模型 [62,63]旨在学习适用于移动操作任务的协调全身动作该模型在通过 JoyLo 收集的数据上进行训练能够在具身空间中自回归地解码全身动作并使用自注意力机制动态聚合多模态观测如图 4 所示首先自回归全身动作解码在具有多个关节部件的移动操作机器人中移动底座或躯干的微小误差都会导致末端执行器产生较大的偏差例如在 R1 机器人处于中立姿态时图 3其膝关节仅的运动就可能因为沿运动学链路的误差放大效应而使末端执行器偏移最多 0.14 m这凸显了在全身移动操作中实现精确协调的必要性为解决这一问题作者利用机器人具身结构中固有的层级性具体而言将上半身动作预测“以预测得到的下半身动作”为条件可以使策略更好地建模协调的全身运动Specifically, conditioning upper-body action predictionson the predicted lower-body actions enables the policy to better model coordinated whole-bodymovements为方便大家理解我额外补充说明下这里的意思是下半身动作是上半身动作的条件——手臂动作会基于躯干和底座的预测结果进行补偿性调整那为何不是反过来呢原因也很简单上半身方便根据下半身去调整而下半身质量极重 不方便根据上半身的需要去轻易移动/调整包括人打拳也是类似的先定下盘 再动上盘该方法确保下游关节能够考虑上游关节的运动从而减少误差传播————全身动作解码遵循自回归结构在时间步t首先使用动作读出token(橙色)由观测编码而来详见后文预测移动底座轨迹(黄)随后利用和预测躯干轨迹最后,和共同预测手臂和夹爪的轨迹为方便大家一目了然我再用一个表格 帮大家总结下步骤预测部位输入条件基于什么预测输出轨迹输出维度自由度第一步移动底座动作读出token由观测编码而来3-DoF第二步躯干和已预测的4-DoF第三步手臂和夹爪、和共同输入14-DoF最终WB-VIMA 为移动底座、躯干和手臂联合学习了三个相互独立的去噪扩散网络[64-66]分别记为,和全身动作通过迭代去噪自回归地解码为实现高频控制下的高效推理作者仅使用动作读出(action readout) token通过扩散过程完成全身动作解码这样可以采用轻量级的基于 UNet 的 [67] 动作头同时使用更重型的Transformer 主干进行观测编码从而在表达能力与延迟之间取得平衡其次对于多模态观测注意力在复杂环境中来自多种模态的观测对于自主机器人至关重要在WB-VIMA 中自中心彩色点云和机器人本体感知关节位置和移动底座速度通过一个视觉运动注意力网络进行融合从而避免对任何单一信息源的过拟合具体而言PointNet[68] 将点云编码为点云token而MLP 将本体感知编码为本体感知token来自当前和过去步的token连同动作读出token(橙色)共同构成一个视觉运动序列随后将输入因果自注意力模块进行处理确保动作token 只能关注更早的观测最终的动作读出token被用于自回归全身解码最后对于训练与部署参考Ho 等人[69]WB-VIMA 通过预测添加的噪声进行训练对每个动作解码器最小化总体损失在全部三个动作解码器上进行聚合且此处和分别表示真实噪声和预测噪声且部署使用NVIDIA RTX 4090 GPU有效延迟为0.02s。数据以10 Hz 的频率采集机器人控制器以100 Hz 运行。每隔0.1 s 发出一个新的策略动作并重复10 次1.3 实验开展实验以回答以下问题Q1BRS 支持哪些家庭任务WB-VIMA 相比基线方法表现如何Q2WB-VIMA 的不同组件分别如何贡献于其有效性Q3JoyLo 与其他接口在效率和策略学习适配性方面相比如何Q4关于该系统的能力还能得到哪些其他见解1.3.0 实验设置作者在五个真实世界的家庭任务上评估BRS见图1 和附录D.1 了解细节这些任务受BEHAVIOR-1K [8] 中定义的日常活动启发对于这些长时间跨度的任务作者使用JoyLo 分别收集了100、103、98、138 和122 条轨迹每条轨迹时长范围为60 s 到210 每个任务被划分为多个子任务”ST”在评估过程中如果某个子任务失败作者会重置到下一个子任务的起始位置并继续评估。且还报告整个任务的端到端成功率”ET”基线方法包括DP3 [70]、RGB-DP [65] 和ACT [23]以及另外报告人工遥操作的成功率以及策略安全违规情况后者被定义为机器人碰撞或由于过大力量导致的电机断电每个策略在随机化的机器人初始位置、目标物体放置位置、目标物体实例以及干扰物条件下被评估15次。每个任务至少包含两类随机化(任务视频可在behavior-robot-suite.github.io 获取)1.3.1 BRS 支持哪些家庭任务WB-VIMA 相比基线方法表现如何BRS 支持多种家务活动其中 WB-VIMA 在这些任务上始终优于基线方法Q1如图 5 所示『五种家务任务的评估结果。左初始随机化。中15 次运行中的成功率“ET” 整体任务“ST” 子任务。右安全违规次数』WB-VIMA 在子任务上的平均成功率达到 88%在完整任务上的平均与峰值成功率分别为58% 和 93%在涉及关节物体的接触密集型子任务中比如“清洁马桶”中的掀开马桶盖ST-2和“晾衣服”中的打开衣柜ST-1人类操作员常常因全身动作不协调而感到棘手而 WB-VIMA 的表现甚至优于人类远程操作这表明通过成功演示的训练它能够学习到精确、协调的动作从而可靠地完成此类任务此外WB-VIMA 展现出了完成长时域、多阶段任务的涌现能力这得益于其多模态观测注意力与自回归全身动作解码之间的协同作用前者用于提取显著的、与任务相关的特征后者用于生成连贯的动作从而很少进入分布外状态最后WB-VIMA 将安全违规率保持在接近零的水平作者认为这要归功于其使用了带颜色的点云观测从而提供了显式的三维感知与语义理解确保生成的协调动作在本质上遵守安全约束在端到端整任务成功率方面WB-VIMA 分别比 DP3 和 RGB-DP 提高了 13× 和21×。在平均子任务表现上它又分别领先 1.6× 和 3.4×ACT 无法完成任何一个完整任务且在子任务上也鲜有成功。这些基线方法之所以表现不佳是因为它们直接预测展平后的 21 自由度动作忽略了动作空间中的层次依赖关系结果是移动底盘或躯干预测中的建模误差 [71] 无法通过手臂动作加以纠正从而放大了末端执行器的漂移将机器人推入分布外状态并最终导致任务失败缺乏协调的全身动作还会增加安全违规图 5例如 DP3 与桌子发生碰撞RGB-DP 因施力过大导致机械臂断电ACT 在倒垃圾过程中撞到门框且作者还观察到WB-VIMA 和 DP3 的表现优于 RGB-DP 和 ACT这凸显了在复杂环境中显式 3D 感知的重要性第一人称点云提供了统一的空间理解能力对精确的移动底盘导航至关重要且尽管 WB-VIMA 和 DP3 都利用了点云只有 WB-VIMA 通过颜色融入了任务语义信息而DP3 往往过度拟合本体感觉仅基于关节位置来串联动作而很少考虑环境因素1.3.2 WB-VIMA 的不同组件分别如何贡献于其有效性协同的全身动作预测和多模态特征提取是 WB-VIMA 取得强劲性能Q2的关键那仅依赖显式 3D 感知的模型能否匹配 WB-VIMA 的性能消融研究表明它们做不到作者评估了两个 WB-VIMA 变体一个去除了自回归全身动作解码另一个去除了多模态观测注意力如图 6 所示——真实场景中针对“将物品放到货架上”和“把衣服铺开”的消融实验结果移除任一模块都会显著降低性能诸如“把物品放到架子上”和“打开衣柜”ST-1这类子任务在“把衣服铺开”任务中严重依赖协调的全身动作去掉自回归动作解码会导致性能最高下降 53%移除多模态注意力会降低所有任务的性能使模型忽视视觉输入而过拟合到本体感受proprioception此外还出现了四起碰撞事件——由于视觉感知能力较差而没有被观察到在模拟的擦桌子任务中图7也得出了相同的结论『“擦桌子”任务的仿真消融实验结果。机器人必须在保持手部持续接触的前提下利用全身运动朝目标方向擦拭。结果是在五次实验中取平均每次实验包含100次rollout误差条表示标准差』此外从一个基础的扩散策略出发作者给出了一条通过逐步增加组件来提升模型成功率的路径多模态观测注意力带来27 % 的提升并超过ACT添加自回归的全身动作解码进一步将成功率提升45 %最终造就了WB-VIMA 出色的最终表现1.3.3 JoyLo 与其他接口在效率和策略学习适配性方面相比如何JoyLo 是一个高效且用户友好的界面为策略学习Q3提供高质量数据作者与 10 名参与者开展了用户研究将 JoyLo 与两种基于逆运动学IK的界面进行对比评估VR 控制器[18] 和Apple Vision Pro[20,72]实验在 OmniGibson模拟器[8]中进行任务为“在疯狂派对后打扫房子”并采用随机化的界面曝光顺序以消除偏差作者在完整任务和各子任务层面测量了成功率、完成时间、回放成功率以及奇异率。回放成功率衡量的是对已收集机器人轨迹的开环执行情况其数值越高表明数据质量越高且经过验证从而使模仿学习策略能够更好地建模这些轨迹[15,16,73–75]。更多实验设置细节见附录D.4如图8 所示JoyLo 在所有界面中达到最高的成功率和最快的完成时间相比VR 控制器它实现了5×更高的任务成功率和23 % 更短的中位完成时间而没有参与者能够使用Apple Vision Pro 完成整个任务JoyLo 在关节物体操控方面表现尤为出色例如在”open dishwasher”ST-2任务中比VR 控制器高出67 % 的成功率使用户能够产生平滑且精确的动作这与关于领导-跟随手臂控制能改善精细操作 [23]的研究发现一致与 Apple Vision Pro 相比它在各个子任务上的耗时也显著减少例如导航速度提高 71%夹取碗的速度提高 67%Apple Vision Pro 依赖头部运动来控制移动底盘导致协调性和跟踪性能较差 [16]——当然因为我司七月于26年3月底与星海图建立了场景交付合作故知道如果用VR 比如quest 如下控制机器人的底盘移动————————此外JoyLo 提供了最高的数据质量其奇异率最低分别比 VR 控制器和 Apple Vision Pro 低 78% 和 85%并且能够稳定地复现成功轨迹不同于受次优 IK 解和动作抖动影响的基于 IK 的方法JoyLo 的直接关节映射和运动学双臂约束确保了全身遥操作的平稳、稳定在用户问卷调查中图 A.4所有参与者都将 JoyLo 评为最易用的界面尽管有 70% 的参与者起初认为基于 IK 的接口会更加直观但在实验结束后他们无一例外地更偏好 JoyLo作者声称这一转变凸显了桌面式数据采集与移动整机操作之间的关键差异基于IK 的方法在静态桌面场景中或许已经足够但在需要控制移动底座和躯干的情形下则表现乏力从而使得在移动操作场景中进行高质量数据采集变得更加困难1.3.4 关于该系统的能力还能得到哪些其他见解协调的躯干和移动底座动作增强了机动性超越了固定臂Q4如图 9 所示对于涉及重型关节物体交互的任务而言例如在“把垃圾拿到外面”中执行的“打开门”ST-3以及在“狂欢派对后打扫房子”中执行的“打开洗碗机”ST-2协调的全身运动至关重要为了打开门机器人在向前推进底座的同时前屈髋关节以产生足够的惯性而为了打开洗碗机它会向后移动底座利用整个身体将门平稳拉开。如果不进行髋部或底座运动两个物体都保持关闭状态导致机械臂关节的力矩急剧上升产生过大的力这可能会对硬件造成损害其他涌现行为例如故障恢复在 onbehavior-robot-suite.github.io 的视频中有所展示进一步证明了 WB-VIMA 的鲁棒性// 待更

更多文章