Code Create World

【论文精读】An Image is worth 16X16 words: transformer for image recognition at scale

2025-08-24

这篇论文由Google Brain团队于2020年发表，是计算机视觉（CV）领域的一个里程碑。它首次证明了，在拥有足够大规模的数据进行预训练的前提下，纯粹的Transformer架构可以超越当时最顶尖的卷积神经网络（CNN），在图像分类任务上取得SOTA（State-of-the-Art）的成果。

阅读全文

PyTorch Autograd机制理解

2025-08-23

算法

在现代深度学习框架中，自动求导机制是当之无愧的核心与基石。它将开发者从繁琐的手动梯度计算中解放出来，让我们能够专注于模型架构的设计与创新。PyTorch中的autograd就是这样一个强大而灵活的引擎。本文将带你深入理解PyTorch Autograd的工作原理，从基本概念到内部机制。

阅读全文

【论文精读】Learning Transferable Visual Models From Natural Language Supervision

2025-08-23

算法

传统的视觉模型通常面临一个巨大的瓶颈：它们被束缚在预先定义好的、固定的类别标签上。例如，一个在ImageNet上训练的模型可以精准识别上千种物体，但如果你想让它识别一个“牛油果形状的椅子”，它便会束手无策。这种“专才”式的学习方式极大地限制了模型的通用性和灵活性。 2021年OpenAI发表的论文 《Learning Transferable Visual Models From Natural Language Supervision》 （从自然语言监督中学习可迁移的视觉模型），提出了一种名为CLIP（Contrastive Language-Image Pre-training，对比语言-图像预训练）的革命性模型。CLIP的诞生，不仅在技术上实现了突破，更在思路上为计算机视觉的发展指明了一个全新的、充满想象力的方向——利用海量的、无处不在的互联网图文数据，直接从自然语言中学习视觉概念。

阅读全文

【论文精读】Switch Transformers: Scaling to Trillion Parameter Models with Simple and Eﬃcient Sparsity

2025-08-21

算法

这篇论文由 Google 于 2021 年发表，它不仅是技术上的突破，更在很大程度上改变了业界对于如何构建超大规模语言模型的认知。

一句话总结：这篇论文通过一种简洁而高效的“专家混合”（Mixture of Experts, MoE）架构，成功地将模型参数量扩展到了万亿级别，同时将训练和推理的计算成本（FLOPs）维持在可控范围内，完美诠释了“用更少的计算，撬动更大的模型”这一核心思想。

阅读全文

交叉熵损失函数梯度公式推导

2025-08-20

算法

在机器学习，尤其是深度学习的分类任务中，交叉熵损失函数（Cross-Entropy Loss）是当之无愧的王者。无论是图像分类、自然语言处理还是其他任何分类场景，你几乎总能看到它的身影。我们都知道，模型通过反向传播（Backpropagation）来学习，而反向传播的核心就是计算损失函数对每个参数的梯度。

作为分类模型中最常用的损失函数，在实际应用过程中，大部分人仅关注如何构造损失函数，很少关注其梯度的计算方式和梯度数量级的问题。本文将详细推导该损失函数的梯度计算方式，之所以进行推导，是为了更好的理解某些时候构造损失函数为何要乘以一个超参数。

阅读全文