摘要: 本文介绍生成模型开发常用Python库,重点讲解Diffusers和Accelerate的基本使用。Accelerate支持分布式训练、混合精度训练、梯度累计等加速方法,简化多显卡训练流程;Diffusers包含Scheduler(加噪处理、逐步解噪)、Stable Diffusion Pipeline等,辅助实现生成模型的训练与推理,为算法工程师提供高效工具支持。 阅读全文
posted @ 2025-08-07 09:54 Big-Yellow-J 阅读(389) 评论(0) 推荐(0)
摘要: 图神经网络基础理论及实操 推荐阅读: 1、https://github.com/PacktPublishing/Hands-On-Graph-Neural-Networks-Using-Python 2、GAT:http://arxiv.org/abs/1710.10903 3、GCN:http:/ 阅读全文
posted @ 2024-02-24 21:26 Big-Yellow-J 阅读(776) 评论(0) 推荐(0)
摘要: 模型推理框架vllm-3——KVCache管理器 作者:HuangJie 原文链接:https://www.big-yellow-j.top/posts/2026/03/15/vllm-3.html 发布日期:2026-03-15 转载请注明出处,感谢! 在之前的Blog分别介绍了vllm整体框架及 阅读全文
posted @ 2026-03-26 00:02 Big-Yellow-J 阅读(14) 评论(0) 推荐(0)
摘要: 模型训练分析-1:Loss以及Grad Norm分析 作者:HuangJie 原文链接:https://www.big-yellow-j.top/posts/2026/02/20/ModelTraining.html 发布日期:2026-02-20 转载请注明出处,感谢! 在训练模型(Qwen2.5 阅读全文
posted @ 2026-03-24 00:03 Big-Yellow-J 阅读(21) 评论(0) 推荐(0)
摘要: 作者:HuangJie 原文链接:/posts/2026/03/09/FireRedModel.html 发布日期:2026-03-09 转载请注明出处,感谢! 首先对于FireRED OCR模型以及FireRED Edit虽然都是模型微调,但是对于其训练过程还是很有参考意义,比如Edit模型中通过 阅读全文
posted @ 2026-03-24 00:00 Big-Yellow-J 阅读(18) 评论(0) 推荐(0)
摘要: 残差连接————Kimi注意力残差/字节混合注意力 作者:HuangJie 原文链接:https://www.big-yellow-j.top/posts/2026/03/21/attention-residuals.html 发布日期:2026-03-21 转载请注明出处,感谢! 本文主要介绍最新 阅读全文
posted @ 2026-03-23 23:58 Big-Yellow-J 阅读(70) 评论(0) 推荐(0)
摘要: 大语言模型训练分为预训练、监督微调(SFT)、人类反馈强化学习(RLHF)三个阶段,RLHF用于对齐人类偏好,核心优化算法包含DPO、PPO、GRPO三类。DPO直接基于人类偏好数据微调,通过对比优选、劣选回答的生成概率优化,无需独立奖励模型。PPO为策略梯度类算法,通过截断更新幅度、引入GAE广义优势估计保证训练稳定性,需搭配奖励模型、价值模型计算损失。GRPO为DPO的组级扩展,通过同prompt下多响应的组内归一化优势计算优化,可缓解输出变长、奖励方差异常问题。 阅读全文
posted @ 2026-03-03 12:30 Big-Yellow-J 阅读(134) 评论(0) 推荐(0)
摘要: 梳理强化学习DPO、PPO、GRPO三类优化算法常见的两类训练崩溃问题。熵坍缩源于动作概率与优势值协方差结构性恒正,训练初期策略熵快速趋近于0,模型失去探索性,效果陷入瓶颈,可通过DAPO调整GRPO的epsilon高低边界、动态温度调度仅对top20%高熵token计算策略梯度两种方案缓解,对应GRPO可配置epsilon_low、epsilon_high、top_entropy_quantile参数实现。奖励坍缩由GRPO组内归一化抹平多奖励信号相对差异导致,训练信号分辨率大幅下降,可采用GDPO对各奖励分量独立标准化后加权求和的方案解决。 阅读全文
posted @ 2026-03-03 12:30 Big-Yellow-J 阅读(247) 评论(0) 推荐(0)
摘要: 扩散模型生成加速策略主要包括加速框架优化、Cache策略及量化技术。加速框架方面,可通过指定attention计算后端(如flash_attn)、torch.compile编译、torch.channels_last优化内存访问,或使用xFormers加速attention计算并降低显存,配合CPU卸载、设备分配等显存优化措施。Cache策略利用扩散过程时间冗余,如DeepCache缓存UNet高层特征、FORA复用DiT的Attn和MLP层特征,FBCache基于First Block L1误差判断是否复用残差,CacheDit结合前n层缓存与阈值判断实现加速。量化技术通过PTQ或QAT降低显存并加速,如Bitsandbytes的即时可逆int4/int8量化、SVDQuant分解权重吸收异常值后量化残差、GGUF格式的紧凑编码与多种PTQ量化级别。测试显示,结合channel优化、flash_attn及cache-dit等策略可有效缩短生图时间。 阅读全文
posted @ 2026-01-25 23:16 Big-Yellow-J 阅读(543) 评论(0) 推荐(0)
摘要: Page Attention是优化KV-cache内存管理的方法,可解决预留浪费、内部及外部内存碎片化问题,通过将KV-cache划分为固定大小Block,利用Block Table维护逻辑与物理映射,有效管理非连续内存;同时处理Softmax计算中的数值溢出与全局信息问题。vllm框架支持离线与在线调用,初始化过程包括模型加载、KV Cache显存预分配(计算可用内存、num_blocks及总token数)并加载到GPU,提升内存使用效率。 阅读全文
posted @ 2026-01-21 10:12 Big-Yellow-J 阅读(226) 评论(0) 推荐(0)
摘要: From:https://www.big-yellow-j.top/posts/2025/10/11/Quantized.html 模型量化技术 简单了解几个概念: 量化:是一种模型压缩的常见方法,将模型权重从高精度(如FP16或FP32)量化为低比特位(如INT8、INT4)。常见的量化策略可以分 阅读全文
posted @ 2025-11-01 11:05 Big-Yellow-J 阅读(631) 评论(0) 推荐(0)
摘要: 评价指标 准确率/精确率/召回率 Positive (预测到的正例) Negative (预测到的反例) True (预测结果为真) TP TN False (预测结果为假) FP FN 争对正案例的计算: 1、准确率计算方式(ACC):\(Acc= \frac{TP+TN}{TP+TN+FP+FN 阅读全文
posted @ 2025-11-01 11:04 Big-Yellow-J 阅读(131) 评论(0) 推荐(0)
levels of contents