什么是Diffusion Policy

冰与火之歌(1745178928) · 30/05/2025, 00:31

以下是关于Diffusion Policy在机器人动作轨迹生成原理的由浅入深解析,结合其核心思想、技术实现及优化方向:

一、基础概念:什么是Diffusion Policy?
Diffusion Policy是一种基于扩散模型的机器人动作生成策略,它将机器人的动作轨迹生成建模为“条件去噪扩散过程”:
核心思想:模仿人类学习技能时从混乱尝试到精准执行的过程。

训练阶段:在专家演示的动作序列上添加噪声,让模型学习如何逐步去除噪声恢复原始动作。

推理阶段:从随机噪声出发,通过迭代去噪生成符合当前观测条件的动作序列。

优势:

多模态动作生成:同一观测下可生成多条合理轨迹(如绕过障碍物时可左转或右转)。

高维动作空间处理:直接生成未来多步动作序列,避免短视决策。

训练稳定性:无需负采样,通过估计能量函数的梯度实现稳定优化。

二、核心框架:动作轨迹如何生成?
扩散与去噪过程

正向扩散(加噪):

专家动作序列 A_0 逐步添加高斯噪声,经过 K 步后变为纯噪声 A_K:
[
A_k = \sqrt{\alpha_k} A_{k-1} + \sqrt{1-\alpha_k} \epsilon, \quad \epsilon \sim \mathcal{N}(0,I)
]
反向去噪(生成):

训练噪声预测网络 \epsilon_\theta,从 A_k 逐步还原 A_0:
[
A_{k-1} = \frac{1}{\sqrt{\alpha_k}} \left( A_k - \frac{1-\alpha_k}{\sqrt{1-\bar{\alpha}k}} \epsilon\theta(A_k, O_t, k) \right) + \sigma_k z
]
其中 O_t 是当前观测(如相机图像),z 为随机噪声保持多样性。
条件化设计(Conditioning)

视觉观测作为条件:

使用ResNet等编码器提取图像特征,作为去噪过程的输入条件,避免重复计算。
时间序列建模:

CNN-based:用1D卷积处理动作序列,但易过度平滑高频动作。

Transformer-based:通过自注意力机制捕捉长程依赖,适合快速变化的动作(如急停)。
闭环动作序列生成

采用滚动时域控制(Receding Horizon Control):
输入最近 n 帧观测 O_t,预测未来 T_p 步动作序列 {a_t, a_{t+1}, ..., a_{t+T_p}}。

仅执行第一步动作 a_t,接收到新观测 O_{t+1} 后重新预测。

✅ 优势:平衡长程规划与实时响应,适应动态环境(如目标物体移动)。

三、关键技术:解决机器人控制的挑战
多模态动作分布的建模

问题:传统方法(如高斯混合模型GMM)在解耦高维动作时易产生无效组合。

扩散策略的解法:

随机初始化和迭代去噪使模型能收敛到不同动作峰值(如推箱子任务中的左右路径)。
!https://example.com/multimodal_diffusion.png
同一观测下扩散策略生成两条合理轨迹示意图
时间一致性的优化

问题:直接生成的动作序列可能动力学不可行(如机械臂关节突变)。

解法:

Diff-Control:引入状态转移模型(类似ControlNet),将上一时刻动作作为条件,增强序列连贯性。

动力学投影:在去噪步骤中加入约束,使生成轨迹满足机器人物理限制。
实时性加速

减少迭代次数:训练使用100步扩散,推理仅需10~20步(DDIM加速)。

硬件优化:并行计算去噪步骤,在GPU上达到实时控制(>10Hz)。

四、实际应用与性能验证
实验效果:
任务:在Push-T(推箱子)、Mug Flipping(翻杯子)等15项任务中测试。

性能:

成功率平均提升46.9%,超越传统方法(如IBC、BET)。

在视觉干扰下(如遮挡)仍保持鲁棒性。

局限与改进:
数据依赖:需100~200次人类演示,数据收集成本高。

3D扩展:引入点云等3D表征提升空间泛化能力(如3D Diffusion Policy)。

五、总结:Diffusion Policy的核心创新
层级 关键贡献

算法思想 将动作生成视为条件去噪扩散过程,结合生成模型与能量优化。
架构设计 视觉条件化编码 + 时间序列扩散模型(Transformer优先) + 滚动时域控制。
性能提升 多模态动作生成、高维序列输出、训练稳定性三大突破。
应用扩展 从机械臂操控到自动驾驶(如DrivingGPT的空间规划)。

通过扩散模型在机器人领域的创造性应用,Diffusion Policy为复杂场景下的动作生成提供了可扩展且高效的解决方案,成为当前具身智能的核心技术之一。

相关文章

正在加载评论...