Big-Yellow-J

[置顶] 深入浅出了解生成模型-5：diffuser/accelerate库学习及其数据合成

摘要：本文介绍生成模型开发常用Python库，重点讲解Diffusers和Accelerate的基本使用。Accelerate支持分布式训练、混合精度训练、梯度累计等加速方法，简化多显卡训练流程；Diffusers包含Scheduler（加噪处理、逐步解噪）、Stable Diffusion Pipeline等，辅助实现生成模型的训练与推理，为算法工程师提供高效工具支持。阅读全文

posted @ 2025-08-07 09:54 Big-Yellow-J 阅读(389) 评论(0) 推荐(0)

[置顶] 图神经网络基础理论及实操

摘要：图神经网络基础理论及实操推荐阅读： 1、https://github.com/PacktPublishing/Hands-On-Graph-Neural-Networks-Using-Python 2、GAT：http://arxiv.org/abs/1710.10903 3、GCN：http:/ 阅读全文

posted @ 2024-02-24 21:26 Big-Yellow-J 阅读(777) 评论(0) 推荐(0)

2026年3月26日

模型推理框架vllm-3——KVCache管理器

摘要：模型推理框架vllm-3——KVCache管理器作者：HuangJie 原文链接：https://www.big-yellow-j.top/posts/2026/03/15/vllm-3.html 发布日期：2026-03-15 转载请注明出处，感谢！在之前的Blog分别介绍了vllm整体框架及阅读全文

posted @ 2026-03-26 00:02 Big-Yellow-J 阅读(19) 评论(0) 推荐(0)

2026年3月24日

模型训练分析-1：Loss以及Grad Norm分析

摘要：模型训练分析-1：Loss以及Grad Norm分析作者：HuangJie 原文链接：https://www.big-yellow-j.top/posts/2026/02/20/ModelTraining.html 发布日期：2026-02-20 转载请注明出处，感谢！在训练模型（Qwen2.5 阅读全文

posted @ 2026-03-24 00:03 Big-Yellow-J 阅读(22) 评论(0) 推荐(0)

开源模型技术总结-3————FireRed（小红书）开源模型

摘要：作者：HuangJie 原文链接：/posts/2026/03/09/FireRedModel.html 发布日期：2026-03-09 转载请注明出处，感谢！首先对于FireRED OCR模型以及FireRED Edit虽然都是模型微调，但是对于其训练过程还是很有参考意义，比如Edit模型中通过阅读全文

posted @ 2026-03-24 00:00 Big-Yellow-J 阅读(18) 评论(0) 推荐(0)

2026年3月23日

残差连接————Kimi注意力残差/字节混合注意力

摘要：残差连接————Kimi注意力残差/字节混合注意力作者：HuangJie 原文链接：https://www.big-yellow-j.top/posts/2026/03/21/attention-residuals.html 发布日期：2026-03-21 转载请注明出处，感谢！本文主要介绍最新阅读全文

posted @ 2026-03-23 23:58 Big-Yellow-J 阅读(72) 评论(0) 推荐(0)

2026年3月3日

强化学习算法-1：GRPO、DPO与PPO解析

摘要：大语言模型训练分为预训练、监督微调（SFT）、人类反馈强化学习（RLHF）三个阶段，RLHF用于对齐人类偏好，核心优化算法包含DPO、PPO、GRPO三类。DPO直接基于人类偏好数据微调，通过对比优选、劣选回答的生成概率优化，无需独立奖励模型。PPO为策略梯度类算法，通过截断更新幅度、引入GAE广义优势估计保证训练稳定性，需搭配奖励模型、价值模型计算损失。GRPO为DPO的组级扩展，通过同prompt下多响应的组内归一化优势计算优化，可缓解输出变长、奖励方差异常问题。阅读全文

posted @ 2026-03-03 12:30 Big-Yellow-J 阅读(136) 评论(0) 推荐(0)

强化学习算法-2：熵坍缩以及奖励坍缩问题机制分析及解决措施

摘要：梳理强化学习DPO、PPO、GRPO三类优化算法常见的两类训练崩溃问题。熵坍缩源于动作概率与优势值协方差结构性恒正，训练初期策略熵快速趋近于0，模型失去探索性，效果陷入瓶颈，可通过DAPO调整GRPO的epsilon高低边界、动态温度调度仅对top20%高熵token计算策略梯度两种方案缓解，对应GRPO可配置epsilon_low、epsilon_high、top_entropy_quantile参数实现。奖励坍缩由GRPO组内归一化抹平多奖励信号相对差异导致，训练信号分辨率大幅下降，可采用GDPO对各奖励分量独立标准化后加权求和的方案解决。阅读全文

posted @ 2026-03-03 12:30 Big-Yellow-J 阅读(247) 评论(0) 推荐(0)

2026年1月25日

深入浅出了解生成模型-8：生成加速策略概述

摘要：扩散模型生成加速策略主要包括加速框架优化、Cache策略及量化技术。加速框架方面，可通过指定attention计算后端（如flash_attn）、torch.compile编译、torch.channels_last优化内存访问，或使用xFormers加速attention计算并降低显存，配合CPU卸载、设备分配等显存优化措施。Cache策略利用扩散过程时间冗余，如DeepCache缓存UNet高层特征、FORA复用DiT的Attn和MLP层特征，FBCache基于First Block L1误差判断是否复用残差，CacheDit结合前n层缓存与阈值判断实现加速。量化技术通过PTQ或QAT降低显存并加速，如Bitsandbytes的即时可逆int4/int8量化、SVDQuant分解权重吸收异常值后量化残差、GGUF格式的紧凑编码与多种PTQ量化级别。测试显示，结合channel优化、flash_attn及cache-dit等策略可有效缩短生图时间。阅读全文

posted @ 2026-01-25 23:16 Big-Yellow-J 阅读(544) 评论(0) 推荐(0)

2026年1月21日

模型推理框架——vllm原理及整体框架

摘要： Page Attention是优化KV-cache内存管理的方法，可解决预留浪费、内部及外部内存碎片化问题，通过将KV-cache划分为固定大小Block，利用Block Table维护逻辑与物理映射，有效管理非连续内存；同时处理Softmax计算中的数值溢出与全局信息问题。vllm框架支持离线与在线调用，初始化过程包括模型加载、KV Cache显存预分配（计算可用内存、num_blocks及总token数）并加载到GPU，提升内存使用效率。阅读全文

posted @ 2026-01-21 10:12 Big-Yellow-J 阅读(233) 评论(0) 推荐(0)

2025年11月1日

模型量化操作————GPTQ和AWQ量化

摘要： From：https://www.big-yellow-j.top/posts/2025/10/11/Quantized.html 模型量化技术简单了解几个概念：量化：是一种模型压缩的常见方法，将模型权重从高精度（如FP16或FP32）量化为低比特位（如INT8、INT4）。常见的量化策略可以分阅读全文

posted @ 2025-11-01 11:05 Big-Yellow-J 阅读(636) 评论(0) 推荐(0)

深度学习基础理论————常见评价指标以及Loss Function

摘要：评价指标准确率/精确率/召回率 Positive (预测到的正例) Negative (预测到的反例) True (预测结果为真) TP TN False (预测结果为假) FP FN 争对正案例的计算： 1、准确率计算方式（ACC）：\(Acc= \frac{TP+TN}{TP+TN+FP+FN 阅读全文

posted @ 2025-11-01 11:04 Big-Yellow-J 阅读(133) 评论(0) 推荐(0)

公告