Code Create World

2025-08-27

在深度学习中，我们依赖于梯度下降和反向传播来优化神经网络。这些方法的核心，正如其名，是“梯度”。梯度指引着我们如何调整参数以最小化损失函数。但如果我们的函数在某些点上没有梯度呢？这在现代神经网络中其实非常普遍，例如广泛使用的ReLU激活函数在x=0处就是不可导的。

这时候，“次梯度”（Subgradient）的概念就显得尤为重要。幸运的是，像PyTorch这样的现代深度学习框架已经巧妙地为我们处理了这些情况。这篇博客将带你深入浅出地理解什么是次梯度。

阅读全文

【论文精读】Decoupled Weight Decay Regularization

2025-08-26

算法

今天带来的论文是2019年由Ilya Loshchilov等人发表的《Decoupled Weight Decay Regularization》，在这篇论文中提出了AdamW算法，也是目前transformer模型中主要使用的优化器算法。这篇论文之前被拒两次，但是最终还是极大影响了后来llm优化器的选择。这篇论文纠正了过去的一种正则化思想：在Adam中的梯度加入权重衰减系数等价于对损失函数做L2正则化。 实际上二者在SGD算法中是等价的，但是Adam算法中并不等价。

阅读全文

Adam算法原理

2025-08-25

算法

Adam（Adaptive Moment Estimation）是一种用于训练深度学习模型的优化算法。它在 2014 年由 Diederik P. Kingma 和 Jimmy Ba 提出，并迅速成为深度学习领域最流行和最常用的优化器之一。

阅读全文

L1和L2正则化

2025-08-25

算法

在训练Ai模型的过程中，常常会遇到一个棘手的问题——过拟合（Overfitting）。当企图增加epoch提高精度的时候，发现accurancy的值始终徘徊，而测试集的损失开始不降反增，则意味着来到了过拟合的阶段，此时要么停止训练，要么选择一些特殊的手段来优化网络，比如本文提到的两种正则化技术：L1正则化和L2正则化。

2025-08-25

Todo