向着朝阳 - 博客园

2026年1月5日

摘要：目录一、一句话总解释（先给结论）二、把“标注数据 → loss → 梯度 → 参数更新”连成一条因果链1️⃣ 标注数据定义了“什么是对的”2️⃣ loss 把“错多少”量化出来3️⃣ 梯度 (\frac{\partial L}{\partial W}) 回答一个关键问题4️⃣ 参数更新一定是“让 l 阅读全文

posted @ 2026-01-05 23:08 向着朝阳阅读(67) 评论(0) 推荐(0)

在transformer架构里面前向传播和反向传播-lora gradient checkpoint 优化

摘要：目录1. Transformer 的基本结构回顾2. 前向传播在 Transformer 中的执行3. 反向传播在 Transformer 中的执行4. 哪些层执行前向/反向传播图例Transformer Block 文本示意开启 Gradient Checkpoint 后（节省显存）好的，我们把阅读全文

posted @ 2026-01-05 20:58 向着朝阳阅读(160) 评论(0) 推荐(0)

QWEN 14B LoRA微调需要多少显存

摘要：目录2k上下文，在推理阶段如何支持更长的上下文面试回答一、标准高分回答（30 秒版）二、如果面试官追问「你怎么估的？」三、如果面试官再追问「为什么不是 LoRA 就很省？」四、不同水平回答对比（你要站在哪一档）❌ 初级（容易被刷）⚠️ 中级（用过，但不稳）✅ 高级（工程可落地）五、如果是偏工程 / 阅读全文

posted @ 2026-01-05 20:29 向着朝阳阅读(264) 评论(0) 推荐(0)

lora微调，如果不考虑 int4/8 量化，微调后会降低显存占用吗

摘要：目录1️⃣ LoRA 微调的基本机制2️⃣ 显存占用分析3️⃣ 小结 LoRA 微调本身不改变原模型大小，但通过只更新低秩参数，训练时显存需求大幅下降（全参数微调相比，显存需求少很多）；推理时显存变化不明显，量化是额外手段，不是必需。 1️⃣ LoRA 微调的基本机制 LoRA 的核心公式：原模型阅读全文

posted @ 2026-01-05 16:41 向着朝阳阅读(105) 评论(0) 推荐(0)

loRA微调loss异常情况分析

摘要：目录LoRA 参数 vs Loss 行为速查表（文本版） loss 下降太慢 → 先检查 r / α / target_modules / dropout 是否偏小 loss 震荡或发散 → 先检查 α / r、lr、r 是否偏大，同时看 target_modules 是否过多验证 loss 振荡阅读全文

posted @ 2026-01-05 15:54 向着朝阳阅读(145) 评论(0) 推荐(0)

Lora lr超参设置

摘要：目录二、什么时候还是要考虑调 lr一、lr 是什么（一句话）二、在 LoRA 场景下，lr 实际控制什么三、设置为多少“合适”（直接用）✅ 推荐安全区（90% 场景）按场景更精细的建议四、什么时候 lr 设“错了”lr 太大，典型表现lr 太小，典型表现 lr 太大，典型表现 loss 上下剧烈震荡阅读全文

posted @ 2026-01-05 15:23 向着朝阳阅读(149) 评论(0) 推荐(0)

LoRA dropout超参设置

摘要：目录一句话结论一、LoRA dropout 到底在防什么二、工程上最常用的配置区间（直接用）三、什么时候“千万别开” dropout四、一个非常实用的工程判断法五、面试 / 评审级一句话 LoRA dropout 是小样本下的正则化手段，通常 0～0.1 即可；数据足够干净时，直接设为 0 是最稳定阅读全文

posted @ 2026-01-05 15:04 向着朝阳阅读(218) 评论(0) 推荐(0)

LoRA微调-lora_alpha参数选择

摘要：目录一、lora_alpha 在数学上到底干了什么换句话说三、什么时候 α = 2r 是合理的四、什么时候不应该用 α = 2r1. r 很大（≥64）2. 数据噪声大 / 标签不干净3. 做的是“知识注入型任务”五、工程上更“正确”的设置方式（推荐）不要问 “α 该不该等于 2r”一个实用表（阅读全文

posted @ 2026-01-05 11:55 向着朝阳阅读(226) 评论(0) 推荐(0)

2026年1月4日

vLLM 优化- Pipeline Parallel Transformer block

摘要：目录一、Transformer Block 的基本结构二、多个 Transformer Block三、Pipeline Parallel 里的作用四、类比理解五、总结一句话block0 和 block1有什么不同一、单个 Transformer block 的功能二、为什么要堆叠多个 block三、阅读全文

posted @ 2026-01-04 21:42 向着朝阳阅读(85) 评论(0) 推荐(0)

NVLink vs PCIe 性能差异

摘要：目录1️⃣ NVLink vs PCIe 性能差异PCIe（Peripheral Component Interconnect Express）NVLink2️⃣ NVLink 的工作原理3️⃣ 对 LoRA 微调的影响明白，你问的核心是 GPU 间互联性能对比 NVLink 和 PCIe，以及阅读全文

posted @ 2026-01-04 20:55 向着朝阳阅读(374) 评论(0) 推荐(0)

aibi1

公告