强化学习综括

环境特性分类矩阵

维度特征	白盒环境（显式模型）	黑盒环境（隐式模型）
静态环境（单步决策）	运筹优化方法： - 线性/非线性规划 - 组合优化 - 凸优化	黑盒优化方法： - 代理模型优化（神经网络） - 贝叶斯优化 - 模拟退火算法
动态环境（序贯决策）	动态规划方法： - 状态空间搜索（树/图搜索） - 马尔可夫决策过程(MDP)解析求解	强化学习方法： - 策略梯度优化 - 多臂老虎机(Bandits) - 黑盒序贯决策

有监督无监督学习：

\min_\theta \mathbb{E}_{(x,y) \sim P} \mathcal{L} \left( y, f_\theta(x)\right)

RL：

\max_\pi \mathbb{E}_{(s,a) \sim \rho^{\pi_\theta}, \text{Env}} \ r(s,a)

可以发现强化学习的数据分布是一直在改变的，即使策略 $\pi$ 固定下来，数据分布相比于有监督仍然是更难获取的（intractable），再加上 on-policy 的算法策略 $\pi$ 一直在改变，相当于又套了一层黑盒，这就是强化学习更难学习的原因

动态数据分布困境
强化学习的根本挑战源于其数据生成机制：

环境耦合性：状态-动作对分布 $\rho^{\pi_\theta}$ 同时依赖于： $\rho^{\pi_\theta}(s,a) = P_{\text{Env}}(s)\pi_\theta(a|s)$
其中环境状态分布 $P_{\text{Env}}(s)$ 本身是策略的隐函数
不可解析性：即使策略 $\pi_\theta$ 固定，由于环境动态模型的未知性， $\rho^{\pi_\theta}$ 仍然难以显式表达

双重黑盒效应
在on-policy算法中形成双重嵌套难题：

\begin{cases} \text{外层黑盒}: & \rho^{\pi_\theta} \text{ 随策略更新动态变化} \\ \text{内层黑盒}: & \nabla_\theta \mathbb{E}_{(s,a)\sim\rho^{\pi_\theta}} r(s,a) \text{ 需通过策略梯度定理求解} \end{cases}

3. 采样-优化悖论
产生自强化学习的闭环学习特性：

阶段	监督学习	强化学习
数据生成	静态数据集 $\mathcal{D}$	动态策略 $\pi_t$ 生成轨迹 $\tau_t$
优化过程	固定分布下的参数优化	策略迭代改变数据分布

理论启示：根据Goodhart定律，当优化目标（回报函数）本身成为被操纵对象时，算法容易陷入局部最优陷阱。这解释了为何简单的策略梯度方法在复杂环境中常出现收敛困难。

优化的是数据分布，机器学习优化的是参数

强化学习的衰减因子是必须而且是唯一的方式

预测下一个状态：

强化学习微调只调几个epooch，多了话原来的能力会丧失（持续学习+RL？）

本质区别：

注：最新研究表明，将Transformer架构与模型预测控制(MPC)结合，在Atari基准测试中取得了87%的样本效率提升（ICML 2023）