2026-06-11
算法
00

当你想要评估一个函数在一个分布PP上的期望,但是无法从这个期望直接采样,于是从另一个分布QQ去采样,然后计算在PP上的期望,因为是从QQ上进行采样的,所以需要一个权重去修正。这种修正的方法就叫重要性采样,下面将详细介绍其数学原理和应用

2026-06-11
算法
00

策略梯度定理(Policy Gradient Theorem)是强化学习中极为优雅且核心的基石。对于需要处理连续动作空间、复杂动力学系统的任务(例如自主导航系统中的力矩控制或机器人的运动规划)来说,理解这个定理是设计高效RL智能体的前提。本文将详细解释这个定理的数学原理和具体实现。

2026-06-10
算法
00

理解熵,交叉熵与KL散度是迈入信息论和众多机器学习算法大门的关键。有太多人知道如何计算交叉损熵损失函数,但是从来不知道为何要这样计算。就好像能看懂乐谱,却无法直接从乐谱听到音乐。本文将由浅入深的介绍这三个概念。

2026-06-09
算法
00

在训练智能体的时候,智能体的动作不确定性会随着训练进度逐渐下降,这种不确定性通常用熵(entropy)来衡量。本篇博客将会介绍一下高斯熵公式的概念和理解。

2026-06-09
算法
00

对一个随机变量进行“变形(映射)”时,它的概率密度会随着空间的“拉伸”或“挤压”而发生改变,这一定理就是用来计算这个变化量的。