deephub

2024年8月3日

摘要：大型语言模型（LLMs）通常因为体积过大而无法在消费级硬件上运行。这些模型可能包含数十亿个参数，通常需要配备大量显存的GPU来加速推理过程。因此越来越多的研究致力于通过改进训练、使用适配器等方法来缩小这些模型的体积。在这一领域中，一个主要的技术被称为量化。在这篇文章中，我将在语言建模的背景下介绍阅读全文

posted @ 2024-08-03 12:11 deephub 阅读(261) 评论(0) 推荐(0)

2024年8月2日

深入浅出：可视化理解揭示决策树与梯度提升背后的数学原理

摘要：决策树是一种非参数的监督学习算法，可用于分类和回归。它使用类似树的结构来表示决策及其潜在结果。决策树易于理解和解释，并且可以轻松地进行可视化。但是当决策树模型变得过于复杂时，它不能很好地从训练数据中泛化，会导致过拟合。梯度提升是一种集成学习模型，在其中结合许多弱学习器从而得到一个强学习器。这些弱学阅读全文

posted @ 2024-08-02 12:10 deephub 阅读(62) 评论(0) 推荐(0)

2024年8月1日

Adam-mini：内存占用减半，性能更优的深度学习优化器

摘要： Adam(W)目前为训练LLM的主流优化器，但其内存开销较大，这是因为Adam优化器需要存储一阶动量m和二阶动量v，总内存占用至少是模型大小的两倍，这对现有的高端显卡也是一种负担。论文提出一种新的优化器Adam-mini，在不牺牲性能的情况下减少Adam优化器的内存占用。 https://avoid 阅读全文

posted @ 2024-08-01 12:26 deephub 阅读(138) 评论(0) 推荐(0)

2024年7月28日

深度学习中常用损失函数介绍

摘要：选择正确的损失函数对于训练机器学习模型非常重要。不同的损失函数适用于不同类型的问题。本文将总结一些常见的损失函数，并附有易于理解的解释、用法和示例 https://avoid.overfit.cn/post/1435dd9dc90e420e965b3ab939363216 阅读全文

posted @ 2024-07-28 16:26 deephub 阅读(118) 评论(0) 推荐(0)

2024年7月27日

大语言模型的Scaling Law：如何随着模型大小、训练数据和计算资源的增加而扩展

摘要：人工智能的世界正在经历一场革命，大型语言模型正处于这场革命的前沿，它们似乎每天都在变得更加强大。从BERT到GPT-3再到PaLM，这些AI巨头正在推动自然语言处理可能性的边界。但你有没有想过是什么推动了它们能力的飞速提升？在这篇文章中，我们将介绍使这些模型运作的秘密武器——一个由三个关键部分组成阅读全文

posted @ 2024-07-27 09:35 deephub 阅读(76) 评论(0) 推荐(0)

2024年7月26日

精简模型，提升效能：线性回归中的特征选择技巧

摘要：在本文中，我们将探讨各种特征选择方法和技术，用以在保持模型评分可接受的情况下减少特征数量。通过减少噪声和冗余信息，模型可以更快地处理，并减少复杂性。我们将使用所有特征作为基础模型。然后将执行各种特征选择技术，以确定保留和删除的最佳特征，同时不显著牺牲评分（R2 分数）。使用的方法包括：相关性矩阵阅读全文

posted @ 2024-07-26 10:49 deephub 阅读(129) 评论(0) 推荐(0)

2024年7月25日

贝叶斯分析与决策理论：用于确定分类问题决策点的应用

摘要：在分类问题中，一个常见的难题是决定输出为数字时各类别之间的切分点。例如，一个神经网络的输出是介于0到1之间的数字，比如0.7，这是对应于正类（1）还是负类（0）？常识告诉我们使用0.5作为决策标记，但如果低估正类的风险较高怎么办？或者如果类别不平衡呢？在这些情况下，正确估计切分点需要复审概率和贝叶阅读全文

posted @ 2024-07-25 10:30 deephub 阅读(37) 评论(0) 推荐(0)

2024年7月24日

大语言模型对时间序列预测真的有用吗？

摘要：我们已经看到了语言模型的巨大进步，但时间序列任务，如预测呢？今天我们推荐一篇论文，对现有的语言模型和时间序列做了深入的研究。将探讨了是否可以从大型语言模型（LLMs）中获益于时间序列（TS）预测。时间序列时间序列是机器学习中最具挑战性的工作领域之一，解决时间序列任务，如异常检测、时间序列预测等，阅读全文

posted @ 2024-07-24 10:17 deephub 阅读(95) 评论(0) 推荐(0)

2024年7月23日

用PyTorch从零开始编写DeepSeek-V2

摘要： DeepSeek-V2是一个强大的开源混合专家（MoE）语言模型，通过创新的Transformer架构实现了经济高效的训练和推理。该模型总共拥有2360亿参数，其中每个令牌激活21亿参数，支持最大128K令牌的上下文长度。在开源模型中，DeepSeek-V2实现了顶级性能，成为最强大的开源MoE语阅读全文

posted @ 2024-07-23 11:02 deephub 阅读(507) 评论(0) 推荐(0)

2024年7月22日

VQ-VAE：矢量量化变分自编码器，离散化特征学习模型

摘要： VQ-VAE 是变分自编码器（VAE）的一种改进。这些模型可以用来学习有效的表示。本文将深入研究 VQ-VAE 之前，不过，在这之前我们先讨论一些概率基础和 VAE 架构。 https://avoid.overfit.cn/post/85355d48ece84f77b7c1b02f60de9c8f 阅读全文

posted @ 2024-07-22 10:05 deephub 阅读(289) 评论(0) 推荐(0)

overfit深度学习

公告