Policy Gradient

策略梯度算法也算是参数化模型的一种方法，在前面一章中，我们对参数化值函数估计而非对策略本身参数化，实际上我们也可以直接对策略进行参数化估计，这一章我们默认策略为随机性策略。

对于随机策略 $\pi_\theta(a|s)=P(a|s; \theta)$ ，直觉上我们应该

目标函数 $J(\theta)$ 定义为从状态分布 $s \sim d(s)$ （初始状态的分布）出发，遵循策略 $\pi_\theta$ 的期望累积奖励：

J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^\infty \gamma^t r(s_t, a_t) \right]

其中 $\tau = (s_0, a_0, s_1, a_1, \dots)$ 表示轨迹， $\gamma \in [0, 1)$ 是折扣因子。和以前不同的是，现在对 $J(\theta)$ 求导的过程中参数 $\theta$ 不仅出现在期望中，还出现在下标中，因此需要注意一下

根据策略梯度定理，目标函数的梯度可表示为：

\begin{aligned} J(\theta) &= \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^\infty \gamma^t r(s_t, a_t) \right] \\ &= \sum_{s \in \mathcal{S}}d(s)\su\mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^\infty \gamma^t r(s_t, a_t) \right] \end{aligned}

\begin{aligned} \nabla J(\theta) =& \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^\infty \nabla \log \pi_\theta(a_t|s_t) \cdot Q^{\pi_\theta}(s_t, a_t) \right] \\ =& \end{aligned}

其中 $Q^{\pi_\theta}(s, a)$ 是动作值函数，定义为：

Q^{\pi_\theta}(s, a) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{k=0}^\infty \gamma^k r_{t+k} \mid s_t = s, a_t = a \right]

由于状态分布 $s \sim d(s)$ 和动作分布 $a \sim \pi_\theta(a|s)$ ，梯度可简化为：

\nabla J(\theta) = \mathbb{E}_{s \sim d(s), a \sim \pi_\theta} \left[ \nabla \log \pi_\theta(a|s) \cdot Q^{\pi_\theta}(s, a) \right]

这里 $d(s)$ 是状态的平稳分布，由策略 $\pi_\theta$ 和环境动态决定

实际计算中，通过采样轨迹 $\tau$ 近似期望值：

\nabla J(\theta) \approx \frac{1}{N} \sum_{i=1}^N \nabla \log \pi_\theta(a^{(i)}|s^{(i)}) \cdot G_t^{(i)}

其中 $N$ 是采样次数， $G_t^{(i)}$ 是第 $i$ 条轨迹的累积奖励。

初始化：参数 $\theta$ ，学习率 $\alpha$ 。
循环：
a. 采样轨迹 $\tau$ ：根据当前策略 $\pi_\theta$ 与环境交互。
b. 计算累积奖励 $G_t$ 。
c. 更新参数： $\theta \leftarrow \theta + \alpha \cdot \nabla \log \pi_\theta(a_t|s_t) \cdot G_t$ （使用梯度上升法最大化 $J(\theta)$ ）

关键引用

Policy Gradient 算法推导

目标函数 $J(\theta)$ 是策略 $\pi_\theta$ 的期望累积折扣奖励：

J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^\infty \gamma^t r(s_t, a_t) \right]

其中 $\tau = (s_0, a_0, s_1, a_1, \dots)$ 表示轨迹， $\gamma$ 是折扣因子。

对 $J(\theta)$ 求梯度：

\nabla_\theta J(\theta) = \nabla_\theta \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^\infty \gamma^t r(s_t, a_t) \right]

将期望展开为轨迹概率的积分：

\nabla_\theta J(\theta) = \int_\tau P(\tau|\theta) \cdot \left( \sum_{t=0}^\infty \gamma^t r(s_t, a_t) \right) \cdot \nabla_\theta \log P(\tau|\theta) \, d\tau

其中 $\nabla_\theta \log P(\tau|\theta)$ 是关键项。

轨迹 $\tau$ 的概率可分解为：

P(\tau|\theta) = d(s_0) \prod_{t=0}^\infty \pi_\theta(a_t|s_t) P(s_{t+1}|s_t, a_t)

取对数后：

\log P(\tau|\theta) = \log d(s_0) + \sum_{t=0}^\infty \log \pi_\theta(a_t|s_t) + \sum_{t=0}^\infty \log P(s_{t+1}|s_t, a_t)

对 $\theta$ 求梯度时，与 $\theta$ 无关的项（如 $d(s_0)$ 和 $P(s_{t+1}|s_t, a_t)$ ）消失：

\nabla_\theta \log P(\tau|\theta) = \sum_{t=0}^\infty \nabla_\theta \log \pi_\theta(a_t|s_t)

将梯度表达式代入：

\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \left( \sum_{t=0}^\infty \gamma^t r(s_t, a_t) \right) \cdot \left( \sum_{t=0}^\infty \nabla_\theta \log \pi_\theta(a_t|s_t) \right) \right]

交换求和顺序，利用因果性（当前动作不影响过去奖励）：

\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^\infty \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot \left( \sum_{k=t}^\infty \gamma^k r(s_k, a_k) \right) \right]

将 $\sum_{k=t}^\infty \gamma^k r(s_k, a_k)$ 重写为 $\gamma^t \sum_{k=0}^\infty \gamma^k r(s_{t+k}, a_{t+k})$ ，即：

\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^\infty \gamma^t \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot \left( \sum_{k=0}^\infty \gamma^k r(s_{t+k}, a_{t+k}) \right) \right]

定义从时刻 $t$ 开始的折扣累积奖励：

G_t = \sum_{k=0}^\infty \gamma^k r(s_{t+k}, a_{t+k})

最终梯度表达式为：

\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^\infty \gamma^t G_t \nabla_\theta \log \pi_\theta(a_t|s_t) \right]

进一步引入状态-动作值函数 $Q^\pi(s_t, a_t) = \mathbb{E}[G_t | s_t, a_t]$ ，得到：

\nabla_\theta J(\theta) = \mathbb{E}_{s \sim d^\pi, a \sim \pi_\theta} \left[ Q^\pi(s, a) \nabla_\theta \log \pi_\theta(a|s) \right]

其中 $d^\pi(s)$ 是策略 $\pi_\theta$ 下的状态分布。

通过采样近似期望，得到梯度更新公式：

\theta \leftarrow \theta + \alpha \sum_{t=0}^\infty \gamma^t G_t \nabla_\theta \log \pi_\theta(a_t|s_t)

其中 $\alpha$ 是学习率。此为经典的 REINFORCE 算法。