理解熵,交叉熵与KL散度是迈入信息论和众多机器学习算法大门的关键。有太多人知道如何计算交叉损熵损失函数,但是从来不知道为何要这样计算。就好像能看懂乐谱,却无法直接从乐谱听到音乐。本文将由浅入深的介绍这三个概念。
在训练智能体的时候,智能体的动作不确定性会随着训练进度逐渐下降,这种不确定性通常用熵(entropy)来衡量。本篇博客将会介绍一下高斯熵公式的概念和理解。
对一个随机变量进行“变形(映射)”时,它的概率密度会随着空间的“拉伸”或“挤压”而发生改变,这一定理就是用来计算这个变化量的。
本文将详细介绍一个最近的一个研究,围绕多拖轮协同作业任务,构建基于三自由度水动力学的强化学习仿真与控制框架。
在拖轮智能体设计方面,控制输入定义为舵角与螺旋桨转速的二维连续动作空间,状态变量则涵盖大地坐标系下的位置、航向角以及船体坐标系下的纵向、横向和首摇速度。智能体通过高频仿真步长更新状态。
动力学建模采用了经典的水面船舶三自由度Fossen模型,通过欧拉法进行离散化。该模型系统地计算了拖轮的质量矩阵、附加质量矩阵、随速度变化的科里奥利矩阵,以及由正面和侧面水下投影面积估算的非线性二次阻力矩阵。螺旋桨推力则基于转速、直径和特定推力系数进行换算,从而建立了较符合物理实际的控制量到受力与运动状态的映射。下面详细介绍各个模块设计细节: