首页 > 专栏 > 结构之法 算法之道 结构之法 算法之道 共 57 条资讯 GR-RL——首个让机器人系鞋带的VLA:先离线RL训练一个“分布式价值评估器”以做任务进度预测,后数据增强,最后在线RL 2026-01-31 21:54:58 Training-Time RTC——在训练时模拟推理延迟(承认既定事实专心预测后续动作):消除推理阶段的计算开销,让π0.6完成箱子装配与咖啡制作 2026-01-31 21:54:58 PLD——自我改进的VLA:先通过离策略RL学习一个轻量级的残差动作策略,然后让该残差策略收集专家数据,最后蒸馏到VLA中 2026-01-31 21:54:58 Calibrated Q-learning(简称Cal-QL)——为高效在线微调而对“离线RL预训练”做校准:让学到的Q值有上界(保持CQL已做到的不盲目乐观),更有底线(不盲目悲观) 2026-01-31 21:54:58 CHIP——基于事后扰动的「人形自适应柔顺力控制」:不动reward或参考轨迹,把“受力后的位姿偏移”解释成policy本来就该跟的目标,以兼顾追踪模仿和受力后的柔顺性 2026-01-31 21:54:58 SONIC——面向人形全身控制的通用追踪器:可集成VLA来驱动行走-操作(VLA做大脑,SONIC负责执行) 2026-01-31 21:54:58 WholeBodyVLA——全身行走-操作控制的统一潜在VLA:基于从无标注视频中学习行走/操作的LAM,和专门面向loco–mani的RL策略LMO,让智元灵犀X2稳定搬箱子 2026-01-31 21:54:58 HEAD——视觉驱动下的自主配送(本质是VLN):高层规划器发出手部和眼部的目标位置与朝向指令,低层全身控制策略则执行导航与触达,暂无法抓取 2026-01-31 21:54:58 Hume——系统1(VLM+评估头+动作头)与系统2(动作头)的组合:系统1做慢思考且通过价值评估选择对应的动作片段,让系统2持续扩散去噪 2026-01-31 21:54:58 Act2Goal——基于世界模型生成未来视觉轨迹以指导低层运动控制:通过MSTH将轨迹分解为近端和远端帧,且基于HER实现无需外部奖励的在线自主改进 2026-01-31 21:54:58 PI发布的Human to Robot数采工作——头戴iPhone且手戴两相机采集数据:混合数据中像“用机器人数据一样”用人类数据,而无需显式对齐 2026-01-31 21:54:58 DuoCore-WB——视觉驱动的全身行走-操作:让轮式人形自主开门后给会议室的客户递杯水 2026-01-31 21:54:58 GraspVLA——在互联网数据和十亿级规模合成动作数据SynGrasp-1B上预训练的抓取基础模型:基于渐进式动作生成PAG技术 2026-01-31 21:54:58 DoorMan——先仿真中“教师-学生两阶段训练”后Sim2Real,最后仅靠视觉打开会议室的门,给客户递杯水(可额外探索教师策略未演示的行为) 2026-01-31 21:54:58 StageACT——基于CVAE的多阶段ACT:把开门任务分为五个阶段,且做好分段标注以引导低层策略逐一执行 2026-01-31 21:54:58 NavDP与LoGoPlanner——从「基于RGB、深度观测和目标扩散去噪生成行动轨迹:一方面模仿专家,一方面被做价值评估预测」,到含仅使用RGB的点目标导航 2026-01-31 21:54:58 DualVLN——基于像素目标点的双系统VLN基础模型:VLM做全局规划且预测中期路径,DiT策略头依托高频RGR输入和“来自VLM的低频潜在特征”生成动作轨迹 2026-01-31 21:54:58 « 上一页123 相关分类 #!/slash/note #UNTAG (B)(F)uzzing on my world (Hi)story (IN)SECURE Magazine Notification (gdb) break *0x972 - 带鱼博客 BeltfishBlog - ./kwaa.dev .NET Blog .Trash /home/rook1e 00's Adventure 0kami's Blog 0x41414141 in ?? () 0x7f Blog 0xRick Owned Root ! 0xd00's blog 1 Byte 1A23 Blog 1A23 Studio 1Link.Fun 1stwebdesigner 251 2BAB 的工程博客 2ch中文网 360 CERT 360 Netlab Blog - Network Securi 38号车评中心 3o米的微博 404 Media