传统的视觉模型通常面临一个巨大的瓶颈:它们被束缚在预先定义好的、固定的类别标签上。例如,一个在ImageNet上训练的模型可以精准识别上千种物体,但如果你想让它识别一个“牛油果形状的椅子”,它便会束手无策。这种“专才”式的学习方式极大地限制了模型的通用性和灵活性。 2021年OpenAI发表的论文 《Learning Transferable Visual Models From Natural Language Supervision》 (从自然语言监督中学习可迁移的视觉模型),提出了一种名为CLIP(Contrastive Language-Image Pre-training,对比语言-图像预训练) 的革命性模型。CLIP的诞生,不仅在技术上实现了突破,更在思路上为计算机视觉的发展指明了一个全新的、充满想象力的方向——利用海量的、无处不在的互联网图文数据,直接从自然语言中学习视觉概念。
这篇论文由 Google 于 2021 年发表,它不仅是技术上的突破,更在很大程度上改变了业界对于如何构建超大规模语言模型的认知。
一句话总结:这篇论文通过一种简洁而高效的“专家混合”(Mixture of Experts, MoE)架构,成功地将模型参数量扩展到了万亿级别,同时将训练和推理的计算成本(FLOPs)维持在可控范围内,完美诠释了“用更少的计算,撬动更大的模型”这一核心思想。
在机器学习,尤其是深度学习的分类任务中,交叉熵损失函数(Cross-Entropy Loss)是当之无愧的王者。无论是图像分类、自然语言处理还是其他任何分类场景,你几乎总能看到它的身影。我们都知道,模型通过反向传播(Backpropagation)来学习,而反向传播的核心就是计算损失函数对每个参数的梯度。
作为分类模型中最常用的损失函数,在实际应用过程中,大部分人仅关注如何构造损失函数,很少关注其梯度的计算方式和梯度数量级的问题。本文将详细推导该损失函数的梯度计算方式,之所以进行推导,是为了更好的理解某些时候构造损失函数为何要乘以一个超参数。
Geoffrey Hinton、Oriol Vinyals 和 Jeff Dean 于 2015 年发表的论文《Distilling the Knowledge in a Neural Network》 是深度学习领域一篇具有里程碑意义的著作,它开创了一种强大的模型压缩和知识迁移范式——知识蒸馏(Knowledge Distillation)。该技术旨在将一个大型、复杂的“教师”神经网络模型的知识,迁移到一个更小、更轻便的“学生”模型中,使得学生模型在保持较低计算复杂度的同时,能够取得与教师模型相近甚至更好的性能。最关键的是:一个小规模的神经网络通过知识蒸馏的方式训练上限是可以突破直接使用数据集“硬标签”训练的上限。
对于需要从远程位置访问其 Ubuntu 22.04 桌面的开发人员、系统管理员和普通用户来说,XRDP 提供了一个开源且高效的解决方案。XRDP 允许您使用任何标准的远程桌面协议 (RDP) 客户端(例如 Windows 中内置的远程桌面连接)来获得完整的图形化 Linux 桌面体验。