2025-09-05
算法
00

在计算机视觉领域,目标检测(Object Detection)是一个核心且极具挑战性的任务。在2015年之前,以R-CNN系列(R-CNN, Fast R-CNN, Faster R-CNN)为代表的检测算法占据了主导地位。它们通过一个复杂且多阶段的流程来实现高精度检测:首先生成潜在的候选区域(Region Proposal),然后对这些区域进行分类和位置精修。这个流程虽然精确,但速度却是一个巨大的瓶颈,难以满足实时应用的需求。

就在这时,一篇名为《You Only Look Once: Unified, Real-Time Object Detection》的论文横空出世,彻底改变了游戏规则。Joseph Redmon等人提出的YOLO(You Only Look Once)框架,只需要一次就可以同时回归类别和目标位置。

2025-09-04
研究论文
00

2023年3月14日,OpenAI发布了GPT-4,瞬间引爆了全球科技圈。随之而来的,还有一份备受期待的《GPT-4 Technical Report》。不过这份报告并没有太多技术细节,更像是一份“宣传手册”,重点强调模型能力和安全。但是作为一个AI世上重要的里程碑,今天简单解读一下这份手册的部分细节。

2025-08-29
算法
00

今天带来的论文是最最最经典的ResNet,这篇论文开启了深度学习“千层”的时代。在这篇论文之前,大量研究学者发现网络层数越深,效果非但没有提升,反而出现下降。经过大量分析,并不是梯度消失的问题,大家把这个网络深度增加带来的问题称为“网络退化”。而ResNet解决了长期困扰研究者们的“深度网络退化”问题,让构建成百上千层的神经网络成为可能。

2025-08-27
算法
00

在当今的AI领域,Transformer架构无疑是王者,从自然语言处理到计算机视觉,其身影无处不在。然而,模型的性能提升往往来自于对细节的不断打磨。今天带来的是一篇由Google大脑的传奇人物Noam Shazeer发表的论文——《GLU Variants Improve Transformer》。

这篇论文提出了一个看似微小却影响深远的改动:将Transformer中标准的前馈网络(Feed-Forward Network, FFN)中的ReLU或GELU激活函数,替换为门控线性单元(Gated Linear Unit, GLU)的变体。这一改动被证明可以显著提升模型性能,并已被众多先进的大语言模型(如LLaMA、PaLM)所采纳。

2025-08-27
算法
00

在深度学习中,我们依赖于梯度下降和反向传播来优化神经网络。这些方法的核心,正如其名,是“梯度”。梯度指引着我们如何调整参数以最小化损失函数。但如果我们的函数在某些点上没有梯度呢?这在现代神经网络中其实非常普遍,例如广泛使用的ReLU激活函数在x=0处就是不可导的。

这时候,“次梯度”(Subgradient)的概念就显得尤为重要。幸运的是,像PyTorch这样的现代深度学习框架已经巧妙地为我们处理了这些情况。这篇博客将带你深入浅出地理解什么是次梯度。