Code Create World

esc

请输入并搜索

Ctrl+K

2026-06-13

定时器作为单片机中的核心之一，其应用广泛。无论是在中断服务函数 ISR还是输出pwm中都是必不可少的，本文将详细解释其原理和具体的应用。

2026-06-11

当你想要评估一个函数在一个分布 $P$ 上的期望，但是无法从这个期望直接采样，于是从另一个分布 $Q$ 去采样，然后计算在 $P$ 上的期望，因为是从 $Q$ 上进行采样的，所以需要一个权重去修正。这种修正的方法就叫重要性采样，下面将详细介绍其数学原理和应用

2026-06-11

策略梯度定理（Policy Gradient Theorem）是强化学习中极为优雅且核心的基石。对于需要处理连续动作空间、复杂动力学系统的任务（例如自主导航系统中的力矩控制或机器人的运动规划）来说，理解这个定理是设计高效RL智能体的前提。本文将详细解释这个定理的数学原理和具体实现。

2026-06-10

理解熵，交叉熵与KL散度是迈入信息论和众多机器学习算法大门的关键。有太多人知道如何计算交叉损熵损失函数，但是从来不知道为何要这样计算。就好像能看懂乐谱，却无法直接从乐谱听到音乐。本文将由浅入深的介绍这三个概念。

2026-06-09

在训练智能体的时候，智能体的动作不确定性会随着训练进度逐渐下降，这种不确定性通常用熵（entropy）来衡量。本篇博客将会介绍一下高斯熵公式的概念和理解。

James

To create a new world by coding :)