摘要:
目录一、一句话总解释(先给结论)二、把“标注数据 → loss → 梯度 → 参数更新”连成一条因果链1️⃣ 标注数据定义了“什么是对的”2️⃣ loss 把“错多少”量化出来3️⃣ 梯度 (\frac{\partial L}{\partial W}) 回答一个关键问题4️⃣ 参数更新一定是“让 l 阅读全文
posted @ 2026-01-05 23:08
向着朝阳
阅读(67)
评论(0)
推荐(0)
摘要:
目录1. Transformer 的基本结构回顾2. 前向传播在 Transformer 中的执行3. 反向传播在 Transformer 中的执行4. 哪些层执行前向/反向传播图例Transformer Block 文本示意开启 Gradient Checkpoint 后(节省显存) 好的,我们把 阅读全文
posted @ 2026-01-05 20:58
向着朝阳
阅读(160)
评论(0)
推荐(0)
摘要:
目录2k上下文,在推理阶段如何支持更长的上下文面试回答一、标准高分回答(30 秒版)二、如果面试官追问「你怎么估的?」三、如果面试官再追问「为什么不是 LoRA 就很省?」四、不同水平回答对比(你要站在哪一档)❌ 初级(容易被刷)⚠️ 中级(用过,但不稳)✅ 高级(工程可落地)五、如果是偏工程 / 阅读全文
posted @ 2026-01-05 20:29
向着朝阳
阅读(264)
评论(0)
推荐(0)
摘要:
目录1️⃣ LoRA 微调的基本机制2️⃣ 显存占用分析3️⃣ 小结 LoRA 微调本身不改变原模型大小,但通过只更新低秩参数,训练时显存需求大幅下降(全参数微调相比,显存需求少很多);推理时显存变化不明显,量化是额外手段,不是必需。 1️⃣ LoRA 微调的基本机制 LoRA 的核心公式: 原模型 阅读全文
posted @ 2026-01-05 16:41
向着朝阳
阅读(105)
评论(0)
推荐(0)
摘要:
目录LoRA 参数 vs Loss 行为速查表(文本版) loss 下降太慢 → 先检查 r / α / target_modules / dropout 是否偏小 loss 震荡或发散 → 先检查 α / r、lr、r 是否偏大,同时看 target_modules 是否过多 验证 loss 振荡 阅读全文
posted @ 2026-01-05 15:54
向着朝阳
阅读(145)
评论(0)
推荐(0)
摘要:
目录二、什么时候还是要考虑调 lr一、lr 是什么(一句话)二、在 LoRA 场景下,lr 实际控制什么三、设置为多少“合适”(直接用)✅ 推荐安全区(90% 场景)按场景更精细的建议四、什么时候 lr 设“错了”lr 太大,典型表现lr 太小,典型表现 lr 太大,典型表现 loss 上下剧烈震荡 阅读全文
posted @ 2026-01-05 15:23
向着朝阳
阅读(149)
评论(0)
推荐(0)
摘要:
目录一句话结论一、LoRA dropout 到底在防什么二、工程上最常用的配置区间(直接用)三、什么时候“千万别开” dropout四、一个非常实用的工程判断法五、面试 / 评审级一句话 LoRA dropout 是小样本下的正则化手段,通常 0~0.1 即可;数据足够干净时,直接设为 0 是最稳定 阅读全文
posted @ 2026-01-05 15:04
向着朝阳
阅读(218)
评论(0)
推荐(0)
摘要:
目录一、lora_alpha 在数学上到底干了什么换句话说三、什么时候 α = 2r 是合理的四、什么时候 不应该 用 α = 2r1. r 很大(≥64)2. 数据噪声大 / 标签不干净3. 做的是“知识注入型任务”五、工程上更“正确”的设置方式(推荐)不要问 “α 该不该等于 2r”一个实用表( 阅读全文
posted @ 2026-01-05 11:55
向着朝阳
阅读(226)
评论(0)
推荐(0)

浙公网安备 33010602011771号