# 三维钢筋排布多智能体强化学习训练过程

图5-13展示了多智能体强化学习在梁柱十字形节点中进行路径规划的训练过程。灰色竖线表示柱内的纵向钢筋，在此任务中定义为障碍物。智能体的起点和终点由红色圆点和红色三角形分别表示。在此任务中，一组智能体的任务是无碰撞地穿过钢筋混凝土梁柱节点区域，从起点（红色圆点）向定义的终点（红色三角形）前进，同时采取合适的弯折动作进行避障。

:::::{grid} 4 2 2 2
::::{grid-item}
:::{figure} ../../_static/5/5.4/5-13-a.png
(a)
:::

::::
::::{grid-item}
:::{figure} ../../_static/5/5.4/5-13-b.png
(b)
:::

::::

::::{grid-item}
:::{figure} ../../_static/5/5.4/5-13-c.png
(c)
:::

::::
::::{grid-item}
:::{figure} ../../_static/5/5.4/5-13-d.png
(d)
:::

::::
:::::
<div class="show-mid">图 5-13 十字形梁柱节点内智能体训练过程</div>
<br>
<br>

在图5-13（a）-（c）所示的多智能体强化学习训练任务的初始阶段，智能体有较高的贪心率ϵ，鼓励智能体在达到既定目标而不发生碰撞或超时的前提下，探索新的可能性。此时，智能体的路径看起来很混乱。但在训练任务后期，如图5-13（d）所示，具有较低贪心率ϵ的智能体对整体环境有了较为准确的了解和评估，Q-Table逐渐收敛达到全局最优，智能体找到了钢筋排布的最佳路径。由此可见，随着训练任务的进行，智能体的路径从混乱逐渐发展为无碰撞、有规则的路径，最终将选择全局最优的路径，作为无碰撞钢筋排布避障设计方案。