资讯板块落地页

GR-RL——首个让机器人系鞋带的VLA：先离线RL训练一个“分布式价值评估器”以做任务进度预测，后数据增强，最后在线RL

2026-01-31 21:54:58

Training-Time RTC——在训练时模拟推理延迟(承认既定事实专心预测后续动作)：消除推理阶段的计算开销，让π0.6完成箱子装配与咖啡制作

2026-01-31 21:54:58

PLD——自我改进的VLA：先通过离策略RL学习一个轻量级的残差动作策略，然后让该残差策略收集专家数据，最后蒸馏到VLA中

2026-01-31 21:54:58

Calibrated Q-learning(简称Cal-QL)——为高效在线微调而对“离线RL预训练”做校准：让学到的Q值有上界(保持CQL已做到的不盲目乐观)，更有底线(不盲目悲观)

2026-01-31 21:54:58

CHIP——基于事后扰动的「人形自适应柔顺力控制」：不动reward或参考轨迹，把“受力后的位姿偏移”解释成policy本来就该跟的目标，以兼顾追踪模仿和受力后的柔顺性

2026-01-31 21:54:58

SONIC——面向人形全身控制的通用追踪器：可集成VLA来驱动行走-操作(VLA做大脑，SONIC负责执行)

2026-01-31 21:54:58

WholeBodyVLA——全身行走-操作控制的统一潜在VLA：基于从无标注视频中学习行走/操作的LAM，和专门面向loco–mani的RL策略LMO，让智元灵犀X2稳定搬箱子

2026-01-31 21:54:58

HEAD——视觉驱动下的自主配送(本质是VLN)：高层规划器发出手部和眼部的目标位置与朝向指令，低层全身控制策略则执行导航与触达，暂无法抓取

2026-01-31 21:54:58

Hume——系统1(VLM+评估头+动作头)与系统2(动作头)的组合：系统1做慢思考且通过价值评估选择对应的动作片段，让系统2持续扩散去噪

2026-01-31 21:54:58

Act2Goal——基于世界模型生成未来视觉轨迹以指导低层运动控制：通过MSTH将轨迹分解为近端和远端帧，且基于HER实现无需外部奖励的在线自主改进

2026-01-31 21:54:58

PI发布的Human to Robot数采工作——头戴iPhone且手戴两相机采集数据：混合数据中像“用机器人数据一样”用人类数据，而无需显式对齐

2026-01-31 21:54:58

DuoCore-WB——视觉驱动的全身行走-操作：让轮式人形自主开门后给会议室的客户递杯水

2026-01-31 21:54:58

GraspVLA——在互联网数据和十亿级规模合成动作数据SynGrasp-1B上预训练的抓取基础模型：基于渐进式动作生成PAG技术

2026-01-31 21:54:58

DoorMan——先仿真中“教师-学生两阶段训练”后Sim2Real，最后仅靠视觉打开会议室的门，给客户递杯水(可额外探索教师策略未演示的行为)

2026-01-31 21:54:58

StageACT——基于CVAE的多阶段ACT：把开门任务分为五个阶段，且做好分段标注以引导低层策略逐一执行

2026-01-31 21:54:58

NavDP与LoGoPlanner——从「基于RGB、深度观测和目标扩散去噪生成行动轨迹：一方面模仿专家，一方面被做价值评估预测」，到含仅使用RGB的点目标导航

2026-01-31 21:54:58

DualVLN——基于像素目标点的双系统VLN基础模型：VLM做全局规划且预测中期路径，DiT策略头依托高频RGR输入和“来自VLM的低频潜在特征”生成动作轨迹

2026-01-31 21:54:58

首页 > 专栏 > 结构之法算法之道

结构之法算法之道

GR-RL——首个让机器人系鞋带的VLA：先离线RL训练一个“分布式价值评估器”以做任务进度预测，后数据增强，最后在线RL

Training-Time RTC——在训练时模拟推理延迟(承认既定事实专心预测后续动作)：消除推理阶段的计算开销，让π0.6完成箱子装配与咖啡制作

PLD——自我改进的VLA：先通过离策略RL学习一个轻量级的残差动作策略，然后让该残差策略收集专家数据，最后蒸馏到VLA中

Calibrated Q-learning(简称Cal-QL)——为高效在线微调而对“离线RL预训练”做校准：让学到的Q值有上界(保持CQL已做到的不盲目乐观)，更有底线(不盲目悲观)

CHIP——基于事后扰动的「人形自适应柔顺力控制」：不动reward或参考轨迹，把“受力后的位姿偏移”解释成policy本来就该跟的目标，以兼顾追踪模仿和受力后的柔顺性

SONIC——面向人形全身控制的通用追踪器：可集成VLA来驱动行走-操作(VLA做大脑，SONIC负责执行)

WholeBodyVLA——全身行走-操作控制的统一潜在VLA：基于从无标注视频中学习行走/操作的LAM，和专门面向loco–mani的RL策略LMO，让智元灵犀X2稳定搬箱子

HEAD——视觉驱动下的自主配送(本质是VLN)：高层规划器发出手部和眼部的目标位置与朝向指令，低层全身控制策略则执行导航与触达，暂无法抓取

Hume——系统1(VLM+评估头+动作头)与系统2(动作头)的组合：系统1做慢思考且通过价值评估选择对应的动作片段，让系统2持续扩散去噪

Act2Goal——基于世界模型生成未来视觉轨迹以指导低层运动控制：通过MSTH将轨迹分解为近端和远端帧，且基于HER实现无需外部奖励的在线自主改进

PI发布的Human to Robot数采工作——头戴iPhone且手戴两相机采集数据：混合数据中像“用机器人数据一样”用人类数据，而无需显式对齐

DuoCore-WB——视觉驱动的全身行走-操作：让轮式人形自主开门后给会议室的客户递杯水

GraspVLA——在互联网数据和十亿级规模合成动作数据SynGrasp-1B上预训练的抓取基础模型：基于渐进式动作生成PAG技术

DoorMan——先仿真中“教师-学生两阶段训练”后Sim2Real，最后仅靠视觉打开会议室的门，给客户递杯水(可额外探索教师策略未演示的行为)

StageACT——基于CVAE的多阶段ACT：把开门任务分为五个阶段，且做好分段标注以引导低层策略逐一执行

NavDP与LoGoPlanner——从「基于RGB、深度观测和目标扩散去噪生成行动轨迹：一方面模仿专家，一方面被做价值评估预测」，到含仅使用RGB的点目标导航

DualVLN——基于像素目标点的双系统VLN基础模型：VLM做全局规划且预测中期路径，DiT策略头依托高频RGR输入和“来自VLM的低频潜在特征”生成动作轨迹

相关分类

资讯板块落地页

首页 > 专栏 > 结构之法 算法之道

结构之法 算法之道

相关分类

首页 > 专栏 > 结构之法算法之道

结构之法算法之道