2025-08-21
算法
00

这篇论文由 Google 于 2021 年发表,它不仅是技术上的突破,更在很大程度上改变了业界对于如何构建超大规模语言模型的认知。

一句话总结:这篇论文通过一种简洁而高效的“专家混合”(Mixture of Experts, MoE)架构,成功地将模型参数量扩展到了万亿级别,同时将训练和推理的计算成本(FLOPs)维持在可控范围内,完美诠释了“用更少的计算,撬动更大的模型”这一核心思想。

2025-08-20
算法
00

在机器学习,尤其是深度学习的分类任务中,交叉熵损失函数(Cross-Entropy Loss)是当之无愧的王者。无论是图像分类、自然语言处理还是其他任何分类场景,你几乎总能看到它的身影。我们都知道,模型通过反向传播(Backpropagation)来学习,而反向传播的核心就是计算损失函数对每个参数的梯度。

作为分类模型中最常用的损失函数,在实际应用过程中,大部分人仅关注如何构造损失函数,很少关注其梯度的计算方式和梯度数量级的问题。本文将详细推导该损失函数的梯度计算方式,之所以进行推导,是为了更好的理解某些时候构造损失函数为何要乘以一个超参数。

2025-08-20
研究论文
00

Geoffrey Hinton、Oriol Vinyals 和 Jeff Dean 于 2015 年发表的论文《Distilling the Knowledge in a Neural Network》 是深度学习领域一篇具有里程碑意义的著作,它开创了一种强大的模型压缩和知识迁移范式——知识蒸馏(Knowledge Distillation)。该技术旨在将一个大型、复杂的“教师”神经网络模型的知识,迁移到一个更小、更轻便的“学生”模型中,使得学生模型在保持较低计算复杂度的同时,能够取得与教师模型相近甚至更好的性能。最关键的是:一个小规模的神经网络通过知识蒸馏的方式训练上限是可以突破直接使用数据集“硬标签”训练的上限。

2025-08-15
环境配置
00

对于需要从远程位置访问其 Ubuntu 22.04 桌面的开发人员、系统管理员和普通用户来说,XRDP 提供了一个开源且高效的解决方案。XRDP 允许您使用任何标准的远程桌面协议 (RDP) 客户端(例如 Windows 中内置的远程桌面连接)来获得完整的图形化 Linux 桌面体验。

2025-08-14
数据处理
00

在日常的开发和运维工作中,我们经常需要传输大量文件。当传输单个大文件时,网络带宽通常能被充分利用,速度令人满意。然而,一旦面对成千上万个小文件,传输速度便会急剧下降,令人抓狂。这背后的原因在于,每次文件传输都伴随着网络连接建立、元数据读写等额外开销。对于小文件而言,这些固定开销所占比例远超实际数据传输的时间. 本文参考美团技术团队的博客:https://tech.meituan.com/2021/01/07/pack-gzip-zstd-lz4.html 选择isa-l算法和Pigz算法进行测试。