强化学习综括
环境特性分类矩阵
维度特征 | 白盒环境(显式模型) | 黑盒环境(隐式模型) |
---|---|---|
静态环境 (单步决策) |
运筹优化方法: - 线性/非线性规划 - 组合优化 - 凸优化 |
黑盒优化方法: - 代理模型优化(神经网络) - 贝叶斯优化 - 模拟退火算法 |
动态环境 (序贯决策) |
动态规划方法: - 状态空间搜索(树/图搜索) - 马尔可夫决策过程(MDP)解析求解 |
强化学习方法: - 策略梯度优化 - 多臂老虎机(Bandits) - 黑盒序贯决策 |
核心特征对比
强化学习 vs 传统机器学习
有监督无监督学习:
RL:
可以发现强化学习的数据分布是一直在改变的,即使策略 固定下来,数据分布相比于有监督仍然是更难获取的(intractable),再加上 on-policy 的算法策略 一直在改变,相当于又套了一层黑盒,这就是强化学习更难学习的原因
核心困难解析
动态数据分布困境
强化学习的根本挑战源于其数据生成机制:
- 环境耦合性:状态-动作对分布 同时依赖于:
其中环境状态分布 本身是策略的隐函数 - 不可解析性:即使策略 固定,由于环境动态模型的未知性, 仍然难以显式表达
双重黑盒效应
在on-policy算法中形成双重嵌套难题:
3. 采样-优化悖论
产生自强化学习的闭环学习特性:
阶段 | 监督学习 | 强化学习 |
---|---|---|
数据生成 | 静态数据集 | 动态策略 生成轨迹 |
优化过程 | 固定分布下的参数优化 | 策略迭代改变数据分布 |
理论启示:根据Goodhart定律,当优化目标(回报函数)本身成为被操纵对象时,算法容易陷入局部最优陷阱。这解释了为何简单的策略梯度方法在复杂环境中常出现收敛困难。
优化的是数据分布,机器学习优化的是参数
强化学习的衰减因子是必须而且是唯一的方式
预测下一个状态:
强化学习微调只调几个epooch,多了话原来的能力会丧失(持续学习+RL?)
本质区别:
- 优化对象:传统方法优化参数空间θθ,RL优化数据分布ρπρ**π
- 数据特性:监督学习假设i.i.d数据,RL处理时序相关数据
挑战与前沿方向
现存问题
- 收敛速度瓶颈
与监督学习相比,样本效率低2-3个数量级 - 灾难性遗忘
微调实验表明:超过5个epoch的持续训练会导致性能坍塌 - 分布偏移
离线强化学习中的OOD问题仍未完全解决
融合创新方向
融合领域 | 典型方法 | 潜在收益 |
---|---|---|
持续学习 | EWC+PPO | 缓解策略遗忘问题 |
物理仿真 | MuJoCo+RLlib | 提升环境交互效率 |
因果推理 | 结构化奖励函数 | 增强策略可解释性 |
注:最新研究表明,将Transformer架构与模型预测控制(MPC)结合,在Atari基准测试中取得了87%的样本效率提升(ICML 2023)