2.4.4. 采用Q-learning 算法进行智能体路径规划#

Q-leaning算法介绍

Q-learning是强化学习中的一种基本的基于价值的算法，它以上述所说的贝尔曼最优方程、最优价值函数和时序差分学习为基础。智能体通过与环境的交互和学习，调整智能体本身的行为以适应环境。Q-leaning的伪代码如下表所示。Q(s,a)是在某个状态s下，选择动作a能够获得的奖励期望，环境会根据智能体的动作反馈相应的奖励R，Q-Table则是Q(s,a)奖励期望的集合表格。在Q-table中，表格的列为可选择的动作a，表格的行为不同的状态s。Q-table用于指引智能体在不同的状态s下，选择最合适的动作a。Q-leaning算法的主要思想就是将状态s与动作a构建成一张Q-table来存储Q(s,a)，然后根据Q(s,a)来选取能够获得最大奖励的动作。

表 2-2 Q-learning 算法

输入：学习率α∈[0,1]、学习次数 episode、折扣因子γ∈[0,1]

输出：Q*

对所有s∈S、a∈A，初始化所有状态动作对下的表项Q(s,a), Q(terminal)=0
for i＜1 to episode do
    初始化S
    while S != terminal
        根据现有的Q(s,)、当前状态(s)和对应的策略，选择一个动作(a)
        执行动作(a)并观测产生的状态(s’)和奖励(r’)
        更新Q(s,a): Q(s,a)   Q(s,a)+α[rt+1+γmaxQ’(s’,a’)-Q(s,a)]
        令s=s’
    end while
end for

智能体在选择并执行动作(at)之后，会通过与环境的交互得到相应的奖励(rt+1)，并通过使用时序差分学习公式 (2-70) 更新Q(s,a)：

\[Q_{t+1}(s_t,a_t)=Q_t(s_t,a_t) + \alpha [\gamma_{t+1} + \gamma \max_{a_{t+1}} \ Q_t(S_{t+1},a_{t+1}) -Q_t(s_t,a_t)] \tag {2-71}\]

其中Qt+1(st,at)是在状态st下选择动作a更新的奖励期望Q值，Qt(st,at)是在状态s下选择动作a的原奖励期望Q值；α是学习率，α∈[0,1]，rt+1在状态st下选择并执行动作at返回的奖励，γ是衰减率，用以衡量未来奖励对当前的影响，γ∈[0,1]，是在新的状态st+1下所有可选择的动作at+1的最大奖励期望Q值。

在强化学习算法Q-learning中，智能体的目标是最大化累计折扣期望，即：

\[R=\sum_{i=1}^{\infty} \gamma^t r_t \tag {2-72}\]

其中rt是在t时刻下采用动作at得到的奖励。

创建强化学习环境

为了成功实施强化学习，我们需要定义强化学习的另一个重要模块：环境（Environment）。强化学习的环境可以是一个网格，其中每个状态对应于二维网格上的一个图块，智能体可以采取的唯一动作是在网格向上、向下、向左或向右移动。智能体的目标是找到以最直接的方式通往目标方块的方法。

假设我们有一个 4×10 的网格，起始位置在左下方，目标位置在右下方。这两者之间的每一块网格都是“悬崖”，如图2-73。如果智能体进入悬崖，他们将获得 -100 奖励并被送回起始位置。而进入悬崖以外的每个网格都会产生 -1 奖励。在这些条件约束下，可获得的最大奖励是 -11（-1 上，-9 右，-1 下）。使用负奖励是鼓励智能体尽快移动并寻找目标状态。我们可以采用以下代码实现上述步骤。

chapter_2_4_4_01.py#

class CliffWorld:
    """
    40个状态 (4x10格子世界)
    状态到网格的映射如下:
    30 31 32 ... 39
    20 21 22 ... 29
    10 11 12 ... 19
    0 1 2 ... 9
    状态0为起点(S)，状态9为目标点(G)
    动作0、1、2、3分别对应右、上、左、下
    从状态9(目标点G)走出去即结束会话
    状态11-18执行动作3将掉入悬崖并返回状态0，同时获得-100的奖励
    在非目标点的任何状态将获得-1的奖励
    在边界处向边界外移动将保持原地
    """

    def __init__(self):
        # 世界名称
        self.name = "cliff_world"
        # 状态数
        self.n_states = 40
        # 动作数
        self.n_actions = 4
        # x 轴维度
        self.dim_x = 10
        # y 轴维度
        self.dim_y = 4
        # 初始状态
        self.init_state = 0

    def get_outcome(self, state, action):
        """
        定义智能体的动作和状态更新函数
        :param state:
        :param action:
        :return:
        """
        # 智能体进入状态9(目标点)，本轮结束，奖励为0
        if state == 9:
            reward = 0
            next_state = None
            return next_state, reward

        # 默认奖励为-1，使得智能体寻找最短路径以获得最大奖励
        reward = -1
        # 动作0位向右移动，状态+1
        if action == 0:
            next_state = state + 1
            # 当智能体到达右边界，状态保持不变
            if state % 10 == 9:
                next_state = state
            # 当智能体进入悬崖，本轮结束，奖励为-100
            elif state == 0:
                next_state = None
                reward = -100
        # 动作0为向上移动，状态+10
        elif action == 1:
            next_state = state + 10
            # 智能体到达上边界，状态保持不变
            if state >= 30:
                next_state = state
        elif action == 2:
            next_state = state - 1
            if state % 10 == 0:
                next_state = state
        elif action == 3:
            next_state = state - 10
            if 11 <= state <= 18:
                next_state = None
                reward = -100
            elif state <= 9:
                next_state = state
        else:
            print("Action must be between 0 and 3.")
            next_state = None
            reward = None
        return int(next_state) if next_state is not None else None, reward

    def get_all_outcomes(self):
        """
        定义环境输出的状态和奖励
        :return:
        """
        outcomes = {}
        # 遍历所有的状态动作对，得到特定状态下采取特定动作得到的状态和奖励。
        # 该方法将为每个状态-动作对添加一个条目，
        # 其中键是状态和动作的元组，
        # 值是包含(1,next_state,reward)元组的列表。
        # 所有条目都添加完后，该方法返回outcomes字典
        for state in range(self.n_states):
            for action in range(self.n_actions):
                next_state, reward = self.get_outcome(state, action)
                outcomes[state, action] = [(1, next_state, reward)]
        return outcomes

Epsilon贪心策略

定义了环境之后，我们还需要定义智能体在环境中的动作决策策略。在本文中，我们使用最常见的Epsilon贪心策略。智能体的训练过程是一个平衡探索策略（Exploration）与利用策略（Exploitation）的过程。为了增加对当前环境的了解，智能体尝试之前没有执行过的动作以希望发现超过当前最优行为所获得的奖励，即探索策略。利用策略是智能体倾向采取根据历史经验学习到的获得最大奖励的动作。智能体的目标是最大化累计折扣期望，但如果智能体只采用利用策略，则智能体很可能陷入局部最优解，因为可能存在更好的动作策略没有被智能体发现。因此在Q-learning算法中，采用叫做Epsilon贪心策略，其中ε∈(0,1)，该策略的本质是：智能体每次有1-ε的概率进行探索，即随机选择当前可用的所有动作，有ε的概率利用已学习的经验，即选择贪心动作a=argmaxa∈AQ(s,a)。

chapter_2_4_4_02.py#

import numpy as np


def epsilon_greedy(q: np.ndarray, epsilon: float) -> int:
    """
    Epsilon贪心策略: 以概率(1-epsilon)选择最大值动作，以epsilon概率随机选择
    :param q: 动作值的数组
    :param epsilon:随机选择动作的概率
    :return:选择的动作
    """
    # 以概率(1-epsilon)选择最大值动作
    if np.random.random() > epsilon:
        action = np.argmax(q)
    else:
        # 以 epsilon 概率随机选择动作
        action = np.random.choice(len(q))

    return action

创建训练函数

定义了环境和动作决策策略之后，我们还需要定义智能体在环境中训练策略，即如何训练智能体与环境交互来得到最优策略。我们使用Q-learning作为智能体的学习策略，Q-learning的具体实施会在下一节中讲解。本节侧重总体训练框架的搭建。训练函数（learn_environment）用于让智能体在给定的环境中学习。它有五个参数：env是环境对象，learning_rule是学习规则函数，params是参数字典，max_steps是每个episode最多的步数，n_episodes是学习的episode数。该函数会初始化Q-table，并使用 Epsilon贪心策略选择下一个动作。在每一步中，函数会根据当前状态和采取的动作来更新Q-table。在每个 episode 结束后，函数会记录该 episode 的总奖励。最终，函数返回训练后的Q-table和所有 episode 的总奖励。

chapter_2_4_4_03.py#

from typing import Tuple

import numpy as np

from chapter_2_4_4_02 import epsilon_greedy


def learn_environment(env, learning_rule, params, max_steps: int,
                      n_episodes: int) -> Tuple[np.ndarray, int]:
    """
    以概率(1-epsilon)选择最大值动作，以epsilon概率随机选择
    :param env: 环境对象，特指CliffWorld
    :param learning_rule:一个基于观察更新价值函数的函数
    :param params:学习规则和探索策略中使用的参数字典
    :param max_steps:代表智能体在一个训练过程中可以采取的最大步数
    :param n_episodes:用于训练的代数
    :return:更新后的Q价值函数,shape 为(n_states, n_actions) 和 训练过程的总奖励数
    """
    # 初始化Q-table，创建一维数组（env.n_states, env.n_actions）且元素值均为1
    value = np.ones((env.n_states, env.n_actions))
    # 开始智能体学习过程
    reward_sums = np.zeros(n_episodes)
    # 开始训练循环
    for episode in range(n_episodes):
        # 初始化状态
        state = env.init_state
        reward_sum = 0
        for t in range(max_steps):
            # 根据epsilon贪心策略选择下一个动作
            action = epsilon_greedy(value[state], params['epsilon'])
            # 观察采取的动作得到的环境反馈
            next_state, reward = env.get_outcome(state, action)
            # 更新Q-table数值
            value = learning_rule(state, action, reward, next_state,
                                  value, params)
            # 计算总奖励
            reward_sum += reward
            # 定义训练终止条件
            if next_state is None:
                break
            state = next_state
        # 记录每一次训练过程的总奖励
        reward_sums[episode] = reward_sum

    return value, reward_sums

创建Q-learning 函数

定义完总体训练框架之后，我们需要具体实施Q-learning算法。在Q-learning中采用时序差分更新方法，即智能体每执行一个动作更新一次策略，进行单步更新。根据时序差分算法公式（2-70）得到Q值的更新公式：

\[Q_{t+1}(s_t,a_t)=Q_t(s_t,a_t) + \alpha[\gamma_{r+1} + \gamma \max_{a_{t+1}} Q_t(S_{t+1},a_{t+1})-Q_t(s_t,a_t)] \tag {2-73}\]

定义时间差分误差（Temporal Difference Error）：

\[TD \ error = \gamma_{t+1} + \gamma \max_{a_{t+1}} \ Q_{t}(s_{t+1},a_{t+1}) - Q_t(s_t,a_t) \tag {2-74}\]

\[Q_{t+1}(s_t,a_t) = Q_t(s_t,a_t) + \alpha * TD \ error \tag {2-75}\]

chapter_2_4_4_04.py#

from typing import Dict

import numpy as np


def q_learning(state: int, action: int, reward: float, next_state: int,
               value: np.ndarray, params: Dict):
    """
    Q-learning

    Args:
        state: 当前状态标识符
        action: 执行的动作
        reward: 接收到的奖励
        next_state: 转换到的状态标识符
        value: 当前价值函数，形状为(n_states, n_actions)
        params:默认参数字典

    Returns:
        更新后的价值函数，形状为(n_states, n_actions)

    """
    # 当前状态-动作对的q值
    q = value[state, action]
    # 找到下一个状态的最大Q值
    if next_state is None:
        max_next_q = 0
    else:
        max_next_q = np.max(value[next_state])
    # 计算时序差分 TD error
    td_error = reward + params['gamma'] * max_next_q - q
    # 更新Q值
    value[state, action] = q + params['alpha'] * td_error

    return value

创建绘图函数

我们已经完成了Q-learning 算法的大部分，为了使得强化学习的训练过程更加直观，接下来我们将创建几个绘图函数用于对强化学习的训练过程和结果进行可视化。

plot_state_action_values函数用于绘制每个状态下每个动作的价值。它接受环境Environment和Q-table作为参数，并使用折线图显示每个状态下每个动作的价值。

plot_quiver_max_action函数用于绘制每个状态的最大价值动作或最大概率动作。它接受环境和Q-table作为参数，并显示每个状态的最大价值或最大概率动作。

plot_rewards函数用于生成显示每个训练过程的智能体累积总奖励。

chapter_2_4_4_05.py#

import numpy as np
from matplotlib import pyplot as plt
from scipy.signal import convolve as conv


def plot_state_action_values(env, value, ax=None):
    """
    可选参数，表示绘图将生成的坐标轴。如果不提供，将创建一个新的图形和坐标轴。

    Args:
        env: 环境对象
        value:  Q-table，表示为形状为 (n_states, n_actions) 的数组
        ax: 可选参数，表示绘图将生成的坐标轴。如果不提供，将创建一个新的图形和坐标轴。

    Returns:

    """
    if ax is None:
        fig, ax = plt.subplots()

    for a in range(env.n_actions):
        ax.plot(range(env.n_states), value[:, a],
                marker='o', linestyle='--')
    ax.set(xlabel='States', ylabel='Values')

    ax.legend(['R', 'U', 'L', 'D'], loc='lower right')


def plot_quiver_max_action(env, value, ax=None):
    """
    生成在每个状态下显示最大价值或最大概率动作

    Args:
        env: 环境对象
        value: Q-table，表示为形状为 (n_states, n_actions) 的数组。
        ax: 可选参数，表示绘图将生成的坐标轴。如果不提供，将创建一个新的图形和坐标轴。

    Returns:

    """
    if ax is None:
        fig, ax = plt.subplots()

    big_x = np.tile(np.arange(env.dim_x), [env.dim_y, 1]) + 0.5
    big_y = np.tile(np.arange(env.dim_y)[::-1][:, np.newaxis],
                    [1, env.dim_x]) + 0.5
    which_max = np.reshape(value.argmax(axis=1), (env.dim_y, env.dim_x))
    which_max = which_max[::-1, :]
    big_u = np.zeros(big_x.shape)
    big_v = np.zeros(big_x.shape)
    big_u[which_max == 0] = 1
    big_v[which_max == 1] = 1
    big_u[which_max == 2] = -1
    big_v[which_max == 3] = -1

    ax.quiver(big_x, big_y, big_u, big_v)
    ax.set(
        title='Maximum value/probability actions',
        xlim=[-0.5, env.dim_x + 0.5],
        ylim=[-0.5, env.dim_y + 0.5],
    )
    ax.set_xticks(np.linspace(0.5, env.dim_x - 0.5, num=env.dim_x))
    ax.set_xticklabels(["%d" % x for x in np.arange(env.dim_x)])
    ax.set_xticks(np.arange(env.dim_x + 1), minor=True)
    ax.set_yticks(np.linspace(0.5, env.dim_y - 0.5, num=env.dim_y))
    # code too long in a line
    y_tick_labels = np.arange(0, env.dim_y * env.dim_x, env.dim_x)
    ax.set_yticklabels(list(map(lambda x: str(int(x)), y_tick_labels)))
    ax.set_yticks(np.arange(env.dim_y + 1), minor=True)
    ax.grid(which='minor', linestyle='-')


def plot_heatmap_max_val(env, value, ax=None):
    if ax is None:
        fig, ax = plt.subplots()

    if value.ndim == 1:
        value_max = np.reshape(value, (env.dim_y, env.dim_x))
    else:
        value_max = np.reshape(value.max(axis=1), (env.dim_y, env.dim_x))
    value_max = value_max[::-1, :]

    im = ax.imshow(value_max,
                   aspect='auto',
                   interpolation='none',
                   cmap='afmhot')
    ax.set(title='Maximum value per state')
    ax.set_xticks(np.linspace(0, env.dim_x - 1, num=env.dim_x))
    ax.set_xticklabels(["%d" % x for x in np.arange(env.dim_x)])
    ax.set_yticks(np.linspace(0, env.dim_y - 1, num=env.dim_y))
    if env.name != 'windy_cliff_grid':
        y_tick_labels = np.arange(0, env.dim_y * env.dim_x, env.dim_x)
        ticks_after_handle = list(map(lambda x: str(int(x)), y_tick_labels))
        ax.set_yticklabels(ticks_after_handle[::-1])
    return im


def plot_rewards(n_episodes, rewards, average_range=10, ax=None):
    """
    生成显示每个训练过程的累积的总奖励

    Args:
        n_episodes: 智能体训练次数
        rewards: 训练过程智能体获得的总奖励
        average_range: 用于平滑奖励曲线的参数
        ax: 可选参数，表示绘图将生成的坐标轴。如果不提供，将创建一个新的图形和坐标轴。

    Returns:

    """
    if ax is None:
        fig, ax = plt.subplots()

    smoothed_rewards = (conv(rewards, np.ones(average_range), mode='same')
                        / average_range)

    ax.plot(range(0, n_episodes, average_range),
            smoothed_rewards[0:n_episodes:average_range],
            marker='o',
            linestyle='--')
    ax.set(xlabel='Episodes', ylabel='Total reward')


def plot_performance(env, value, reward_sums, n_episodes: int):
    """
    调用定义的画图函数，生成强化学习训练过程和结果的可视化
    Args:
        env: 环境对象
        value: Q-table，表示为形状为 (n_states, n_actions) 的数组
        reward_sums: 训练过程智能体获得的总奖励
        n_episodes: 训练总次数

    Returns:

    """
    fig, axes = plt.subplots(nrows=2, ncols=2, figsize=(16, 12))
    plot_state_action_values(env, value, ax=axes[0, 0])
    plot_quiver_max_action(env, value, ax=axes[0, 1])
    plot_rewards(n_episodes, reward_sums, ax=axes[1, 0])
    im = plot_heatmap_max_val(env, value, ax=axes[1, 1])
    fig.colorbar(im)

    fig.savefig('results_figure.png', dpi=300)

强化学习训练与结果可视化

最后，我们将定义的各函数合并起来，首先定义强化学习的参数包括贪心率，学习率和折扣因子。接着定义强化学习训练总次数和每次训练的尝试次数，并对环境进行初始化。紧接着进行强化学习的训练并可视化训练过程和结果。

chapter_2_4_4_06.py#

import numpy as np
import matplotlib

from chapter_2_4_4_01 import CliffWorld
from chapter_2_4_4_04 import q_learning
from chapter_2_4_4_05 import plot_performance
from chapter_2_4_4_03 import learn_environment

matplotlib.rcParams['font.sans-serif'] = ['SimHei']
matplotlib.rcParams['font.family'] = 'sans-serif'
matplotlib.rcParams['axes.unicode_minus'] = False

np.random.seed(1)

params = {
    'epsilon': 0.1,
    'alpha': 0.1,
    'gamma': 1.0,
}

n_episodes = 500
max_steps = 1000

env = CliffWorld()

results = learn_environment(env, q_learning, params, max_steps, n_episodes)
value_qlearning, reward_sums_qlearning = results

plot_performance(env, value_qlearning, reward_sums_qlearning, n_episodes)

我们观察本案例中强化学习的可视化结果，下面三幅图分别显示了智能体学习过程的不同方面。（a）图是Q-table数值的可视化表示，显示了不同状态下不同动作的期望值。值得注意的是，从初始状态开始，如果智能体向下走，Q-table的期望值很低，说明智能体意识到进入悬崖会得到惩罚，并尝试避开悬崖。图（b）显示了基于Q-table的Epsilon贪心策略，即如果智能体仅在该状态下进行最佳预测，它会采取什么行动。我们会发现智能体学到了在起点往上走，继而往右走，最后往下走绕开悬崖的策略。图（c）是智能体学习的实际证明，我们可以看到总奖励随着训练过程稳步增加，直到渐近于最大可能的奖励-11。

图 2-74 智能体学习过程

Q-learning完整代码可参考附录或扫描二维码下载。

待处理

真实Q-learing 代码线上路径