强化学习综括

环境特性分类矩阵

维度特征 白盒环境(显式模型) 黑盒环境(隐式模型)
静态环境
(单步决策)
运筹优化方法:
- 线性/非线性规划
- 组合优化
- 凸优化
黑盒优化方法:
- 代理模型优化(神经网络)
- 贝叶斯优化
- 模拟退火算法
动态环境
(序贯决策)
动态规划方法:
- 状态空间搜索(树/图搜索)
- 马尔可夫决策过程(MDP)解析求解
强化学习方法:
- 策略梯度优化
- 多臂老虎机(Bandits)
- 黑盒序贯决策

核心特征对比

强化学习 vs 传统机器学习

有监督无监督学习:

minθE(x,y)PL(y,fθ(x)) \min_\theta \mathbb{E}_{(x,y) \sim P} \mathcal{L} \left( y, f_\theta(x)\right)

RL:

maxπE(s,a)ρπθ,Env r(s,a)\max_\pi \mathbb{E}_{(s,a) \sim \rho^{\pi_\theta}, \text{Env}} \ r(s,a)

可以发现强化学习的数据分布是一直在改变的,即使策略 π\pi 固定下来,数据分布相比于有监督仍然是更难获取的(intractable),再加上 on-policy 的算法策略 π\pi 一直在改变,相当于又套了一层黑盒,这就是强化学习更难学习的原因

核心困难解析

动态数据分布困境
强化学习的根本挑战源于其数据生成机制:

  • 环境耦合性:状态-动作对分布 ρπθ\rho^{\pi_\theta} 同时依赖于:ρπθ(s,a)=PEnv(s)πθ(as)\rho^{\pi_\theta}(s,a) = P_{\text{Env}}(s)\pi_\theta(a|s)
    其中环境状态分布 PEnv(s)P_{\text{Env}}(s) 本身是策略的隐函数
  • 不可解析性:即使策略 πθ\pi_\theta 固定,由于环境动态模型的未知性,ρπθ\rho^{\pi_\theta} 仍然难以显式表达

双重黑盒效应
在on-policy算法中形成双重嵌套难题:

{外层黑盒:ρπθ 随策略更新动态变化内层黑盒:θE(s,a)ρπθr(s,a) 需通过策略梯度定理求解\begin{cases} \text{外层黑盒}: & \rho^{\pi_\theta} \text{ 随策略更新动态变化} \\ \text{内层黑盒}: & \nabla_\theta \mathbb{E}_{(s,a)\sim\rho^{\pi_\theta}} r(s,a) \text{ 需通过策略梯度定理求解} \end{cases}

3. 采样-优化悖论
产生自强化学习的闭环学习特性:

阶段 监督学习 强化学习
数据生成 静态数据集 D\mathcal{D} 动态策略 πt\pi_t 生成轨迹 τt\tau_t
优化过程 固定分布下的参数优化 策略迭代改变数据分布

理论启示:根据Goodhart定律,当优化目标(回报函数)本身成为被操纵对象时,算法容易陷入局部最优陷阱。这解释了为何简单的策略梯度方法在复杂环境中常出现收敛困难。

优化的是数据分布,机器学习优化的是参数

强化学习的衰减因子是必须而且是唯一的方式

预测下一个状态:

image.png

强化学习微调只调几个epooch,多了话原来的能力会丧失(持续学习+RL?)

本质区别

  • 优化对象:传统方法优化参数空间θθ,RL优化数据分布ρπρ**π
  • 数据特性:监督学习假设i.i.d数据,RL处理时序相关数据

挑战与前沿方向

现存问题

  • 收敛速度瓶颈
    与监督学习相比,样本效率低2-3个数量级
  • 灾难性遗忘
    微调实验表明:超过5个epoch的持续训练会导致性能坍塌
  • 分布偏移
    离线强化学习中的OOD问题仍未完全解决

融合创新方向

融合领域 典型方法 潜在收益
持续学习 EWC+PPO 缓解策略遗忘问题
物理仿真 MuJoCo+RLlib 提升环境交互效率
因果推理 结构化奖励函数 增强策略可解释性

:最新研究表明,将Transformer架构与模型预测控制(MPC)结合,在Atari基准测试中取得了87%的样本效率提升(ICML 2023)