强化学习中的高斯熵公式理解

在训练智能体的时候，智能体的动作不确定性会随着训练进度逐渐下降，这种不确定性通常用熵（entropy）来衡量。本篇博客将会介绍一下高斯熵公式的概念和理解。

在信息论和统计物理中，高斯熵（Gaussian Entropy）指的是多元连续高斯分布（正态分布）的微分熵（Differential Entropy）。高斯分布在给定的均值和协方差矩阵(对角矩阵，元素是方差)下，是最大化微分熵的分布，因此它在信息论、信号处理和机器学习中具有非常重要的地位。

其核心公式为：

H ( X )=\cfrac{1} {2} \operatorname{l n} ( 2 \pi e \sigma^{2} )

根据公式我们可以发现，熵（不确定性）的计算其实只和方差有关。在强化学习中，Actor网络中一个动作维度通常就会输出一个均值和一个方差。利用这个方差就可以计算这个动作的熵，熵越高，表示智能体的探索越强，熵越低，表示智能体训练趋于稳定，在当前状态下会输出稳定的动作。

公式很简单，但是有一个核心问题：明明存在方差都可以直观的感受动作的不确定性，为什么还要用高斯熵公式再进行一次映射？

简单理解就是，这个ln函数的非线性映射，是一种“翻译”将方差转化到信息的世界，用熵去衡量这种信息的不确定度。方差和熵在本质上是两个维度的概念。信息论之父香农在定义“信息量”和“熵”时，立下了一个铁律：两个独立系统的总信息量（或总熵），应该等于它们各自信息量的“相加”。

为了满足信息的相加，所以取ln函数，为了帮助理解，这里举一个具体的例子：假设你组装了一个无人机，它有两个独立的物理量会发生随机波动：

计算这个无人机系统的总体不确定性：因为两个轴相互独立，整个系统的联合概率分布，是把两个一维高斯分布相乘。此时，总体的不确定“体积”（也就是多元高斯的协方差矩阵行列式）变成了方差的相乘 $4 \times 9 = 36$ .

此时对数 ln 的魔力就出现了。在数学上:

\operatorname{l n} ( A \times B )=\operatorname{l n} ( A )+\operatorname{l n} ( B )

通过对数映射，相乘的方差变成了相加的熵！

除此之外，不同动作的单位是不一样的，比如：动作A的单位是m ，动作B的单位是degree，为了衡量所有动作的总的不确定性，转化成信息熵就可以直接相加了。