deephub

2025年2月21日

摘要：随着大型语言模型（LLM）规模和复杂性的持续增长，高效推理的重要性日益凸显。KV（键值）缓存与分页注意力是两种优化LLM推理的关键技术。本文将深入剖析这些概念，阐述其重要性，并探讨它们在仅解码器（decoder-only）模型中的工作原理。 https://avoid.overfit.cn/post 阅读全文

posted @ 2025-02-21 17:50 deephub 阅读(135) 评论(0) 推荐(0)

2025年2月20日

Vision Transformer中的图像块嵌入详解：线性投影和二维卷积的数学原理与代码实现

摘要： Transformer 架构因其强大的通用性而备受瞩目，它能够处理文本、图像或任何类型的数据及其组合。其核心的“Attention”机制通过计算序列中每个 token 之间的自相似性，从而实现对各种类型数据的总结和生成。在 Vision Transformer 中，图像首先被分解为正方形图像块，然后阅读全文

posted @ 2025-02-20 10:58 deephub 阅读(98) 评论(0) 推荐(0)

2025年2月19日

STAR: 利用时空注意力机制和动态频率损失的视频超分辨率增强框架

摘要： STAR (Spatial-Temporal Augmentation with Text-to-Video Models) 提出了一种创新的视频超分辨率解决方案，针对现有模型中存在的过度平滑和时间一致性不足等问题进行了系统性改进。该方法基于文本到视频(T2V)扩散模型架构，通过优化时序建模能力，有阅读全文

posted @ 2025-02-19 10:24 deephub 阅读(76) 评论(0) 推荐(0)

2025年2月18日

DeepMind发布Matryoshka（套娃）量化：利用嵌套表示实现多精度LLM的低比特深度学习

摘要：本文将介绍 Google DeepMind 提出的 Matryoshka 量化技术，该技术通过从单个大型语言模型 (LLM) 实现多精度模型部署，从而革新深度学习。我们将深入研究这项创新技术如何提高 LLM 的效率和准确性。随着深度学习模型在规模和复杂度上持续增长，效率和灵活性变得至关重要。量化作阅读全文

posted @ 2025-02-18 10:44 deephub 阅读(68) 评论(0) 推荐(0)

2025年2月17日

MOIRAI-MOE: 基于混合专家系统的大规模时间序列预测模型

摘要：作为早期时间序列基础模型之一,Salesforce 开发的 MOIRAI 凭借其出色的基准测试性能以及开源的大规模预训练数据集 LOTSA 在业界获得了广泛关注。本文在此前对 MOIRAI 架构原理的深入分析基础上,重点探讨其最新升级版本 MOIRAI-MOE。该版本通过引入混合专家模型(Mixt 阅读全文

posted @ 2025-02-17 10:58 deephub 阅读(154) 评论(0) 推荐(0)

2025年2月16日

知识蒸馏方法探究：Google Distilling Step-by-Step 论文深度分析

摘要：大型语言模型 (Large Language Models, LLMs) 的发展日新月异。从最初的简单对话系统，到如今能够执行文本生成、语言翻译和代码编写等复杂任务的先进模型，LLM 技术实现了跨越式的进步。然而这些模型的规模和计算需求也呈指数级增长。它们需要大量的计算资源、专用硬件设施以及可观的阅读全文

posted @ 2025-02-16 12:15 deephub 阅读(150) 评论(0) 推荐(0)

2025年2月15日

大语言模型的解码策略与关键优化总结

摘要：本文系统性地阐述了大型语言模型(Large Language Models, LLMs)中的解码策略技术原理及其实践应用。通过深入分析各类解码算法的工作机制、性能特征和优化方法，为研究者和工程师提供了全面的技术参考。主要涵盖贪婪解码、束搜索、采样技术等核心解码方法，以及温度参数、惩罚机制等关键优化手阅读全文

posted @ 2025-02-15 10:58 deephub 阅读(189) 评论(0) 推荐(0)

2025年2月14日

DeepSeek 背后的技术：GRPO，基于群组采样的高效大语言模型强化学习训练方法详解

摘要：强化学习（Reinforcement Learning, RL）已成为提升大型语言模型（Large Language Models, LLMs）推理能力的重要技术手段，特别是在需要复杂推理的任务中。DeepSeek 团队在 DeepSeek-Math [2] 和 DeepSeek-R1 [3] 模型阅读全文

posted @ 2025-02-14 10:18 deephub 阅读(620) 评论(0) 推荐(0)

2025年2月13日

基于结构化状态空间对偶性的贝叶斯注意力机制设计与实现

摘要：当前的大型语言模型在处理长序列文本时面临挑战。主要的瓶颈在于注意力机制，它将文本处理为单词（或 tokens）序列。注意力计算的复杂度随序列长度 T 呈平方增长，导致处理长文本的成本显著增加。为了降低计算成本，研究人员积极探索注意力的替代方案，包括递归模型（如 Mamba [1] 和 xLSTM [ 阅读全文

posted @ 2025-02-13 12:00 deephub 阅读(73) 评论(0) 推荐(0)

2025年2月12日

近端策略优化(PPO)算法的理论基础与PyTorch代码详解

摘要：近端策略优化(Proximal Policy Optimization, PPO)算法作为一种高效的策略优化方法，在深度强化学习领域获得了广泛应用。特别是在大语言模型(LLM)的人类反馈强化学习(RLHF)过程中，PPO扮演着核心角色。本文将深入探讨PPO的基本原理和实现细节。 PPO属于在线策略梯阅读全文

posted @ 2025-02-12 15:17 deephub 阅读(216) 评论(0) 推荐(0)

overfit深度学习

公告