2026-06-09
算法
00

在训练智能体的时候,智能体的动作不确定性会随着训练进度逐渐下降,这种不确定性通常用熵(entropy)来衡量。本篇博客将会介绍一下高斯熵公式的概念和理解。

在信息论和统计物理中,高斯熵(Gaussian Entropy)指的是多元连续高斯分布(正态分布)的微分熵(Differential Entropy)。 高斯分布在给定的均值和协方差矩阵(对角矩阵,元素是方差)下,是最大化微分熵的分布,因此它在信息论、信号处理和机器学习中具有非常重要的地位。

其核心公式为:

H(X)=12ln(2πeσ2)H ( X )=\cfrac{1} {2} \operatorname{l n} ( 2 \pi e \sigma^{2} )

根据公式我们可以发现,熵(不确定性)的计算其实只和方差有关。在强化学习中,Actor网络中一个动作维度通常就会输出一个均值和一个方差。利用这个方差就可以计算这个动作的熵,熵越高,表示智能体的探索越强,熵越低,表示智能体训练趋于稳定,在当前状态下会输出稳定的动作。

公式很简单,但是有一个核心问题:明明存在方差都可以直观的感受动作的不确定性,为什么还要用高斯熵公式再进行一次映射?

简单理解就是,这个ln函数的非线性映射,是一种“翻译”将方差转化到信息的世界,用熵去衡量这种信息的不确定度。方差和熵在本质上是两个维度的概念。信息论之父香农在定义“信息量”和“熵”时,立下了一个铁律:两个独立系统的总信息量(或总熵),应该等于它们各自信息量的“相加”。

为了满足信息的相加,所以取ln函数,为了帮助理解,这里举一个具体的例子: 假设你组装了一个无人机,它有两个独立的物理量会发生随机波动:

  • 位置的波动: 沿 X 轴水平晃动,方差为: σ2=4\sigma^{2} = 4
  • 高度的波动: 沿 Z 轴上下晃动,方差为: σ2=9\sigma^{2} = 9

计算这个无人机系统的总体不确定性: 因为两个轴相互独立,整个系统的联合概率分布,是把两个一维高斯分布相乘。此时,总体的不确定“体积”(也就是多元高斯的协方差矩阵行列式)变成了方差的相乘 4×9=364 \times 9 = 36.

此时对数 ln 的魔力就出现了。在数学上:

ln(A×B)=ln(A)+ln(B)\operatorname{l n} ( A \times B )=\operatorname{l n} ( A )+\operatorname{l n} ( B )

通过对数映射,相乘的方差变成了相加的熵!

除此之外,不同动作的单位是不一样的,比如:动作A的单位是m ,动作B的单位是degree,为了衡量所有动作的总的不确定性,转化成信息熵就可以直接相加了。

本文作者:James

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!