核心优化问题
1. 强化学习的最终目标
无论我们如何衡量回报(无论是无限时间范围的折扣回报,还是有限时间范围的无折扣回报),也无论我们选择何种策略,强化学习(RL)的最终目标始终是:
找到一个策略,当智能体依据这个策略行动时,能够最大化其期望回报。
这个目标是所有强化学习算法驱动力的核心。
2. 理解期望回报:轨迹的概率
为了讨论“期望回报”,我们首先必须能够量化一个“轨迹”(trajectory)发生的可能性。一个轨迹 $τ$ 是一个状态和动作的序列,例如 $τ = (s_0, a_0, s_1, a_1, …)$。
假设环境的动态(状态转移)和智能体的策略都是随机的。在这种情况下,一个包含 $T$ 个时间步的轨迹 $τ$ 发生的概率,取决于三个关键部分:
- 初始状态的概率
- 每一步状态转移的概率
- 每一步选择动作的概率
将这三者结合,我们得到一个轨迹的完整概率公式:
$P(\tau|\pi) = \rho_0(s_0) \prod_{t=0}^{T-1} P(s_{t+1} | s_t, a_t) \pi(a_t | s_t)$
让我们分解这个公式的每个部分:
- $\rho_0(s_0)$: 初始状态分布。它描述了在最开始时,环境处于状态 $s_0$ 的概率。
- $P(s_{t+1} | s_t, a_t)$: 环境动力学模型。它描述了在状态 $s_t$ 下执行动作 $a_t$ 后,环境转移到下一个状态 $s_{t+1}$ 的概率。这部分由环境决定,智能体无法改变。
- $π(a_t | s_t)$: 智能体的策略。它描述了在状态 $s_t$ 下,智能体选择动作 $a_t$ 的概率。这是我们通过学习来优化的部分。
3. 期望回报的正式定义
有了轨迹的概率,我们就可以正式地定义期望回报 $J(π)$。它是在策略 $π$ 下,所有可能轨迹的回报 $R(τ)$ 的加权平均值,权重就是每个轨迹发生的概率 $P(τ|π)$。
其数学表达有两种等价形式:
积分形式:
$J(\pi) = \int_{\tau} P(\tau|\pi) R(\tau)$
这表示对所有可能的轨迹 $τ$ 进行积分(或求和),将每个轨迹的回报 $R(τ)$ 与其发生的概率 $P(τ|π)$ 相乘。期望形式 (更紧凑的写法):
$J(\pi) = \underset{\tau \sim \pi}{\mathbb{E}}[R(\tau)]$
4. RL的核心优化问题
综上所述,强化学习的中心优化问题可以被简洁地表述为:
$\pi^{*} = \arg \max_{\pi} J(\pi)$
这里的符号含义是:
- $\pi^{*}$:代表最优策略 (optimal policy)。
- $\arg \max_{\pi}$:这个算子意味着我们要找到一个参数(在这里是策略 $π$),使得后面的表达式(在这里是期望回报 $J(π)$)达到最大值。
简而言之,强化学习的全部工作,就是寻找那个能使期望回报 $J(π)$ 最大化的最优策略 $\pi^{*}$。