LLM 算法岗 | 面试常问的 LLM 八股题目汇总

1. Transformer 与模型架构原理
2. 大模型训练流程与微调技术
3. 强化学习与人类对齐 (RLHF)
4. Agent 智能体设计与应用
5. RAG 检索增强生成
6. 推理优化、部署与工程化
7. 多模态与主流模型架构
8. LLM 相关代码实现 (手撕)

1. Transformer 与模型架构原理

请介绍 Transformer 的结构组成、各部分作用及底层原理。
Transformer 的 forward 计算包含哪些部件？非线性由什么提供？
Transformer 为什么能替代 RNN？核心优势是什么？
详细介绍 Self-Attention 机制，包括本质、数学解释、具体计算步骤，及时间复杂度。
为什么要用 Multi-Head Attention？切分为多头的作用是什么？
计算 Attention 的 Softmax 之前为什么要除以根号 \(d_k\)？
介绍一下 Transformer 的位置编码（Positional Encoding），还了解其他位置编码吗？
介绍 QKV 的计算。如果在 Transformer 中去掉 K，变成 QQV，会有什么问题？（仅考虑编码器内部）
Transformer 是 Encoder-Decoder 架构，而 GPT 是 Decoder-only 架构，为什么会演变成这种形式？为什么生成式任务（如 GPT）通常舍弃 Encoder？
Transformer 的 FFN 层为什么会逐渐演变成 MOE（Mixture of Experts）层？
MOE 层的负载均衡具体是怎么做的？偏置项 b 是怎么训练的？如何保证偏置项得到变换？
如何降低 Transformer 的计算复杂度？为降低计算复杂度，常见的稀疏注意力变体有哪些？
分析一下 Transformer 训练过程中显存占用和计算复杂度。
Self-Attention 机制在多模态对齐上是否存在瓶颈？有没有实际场景里注意力权重完全偏掉的情况？
如何解决梯度消失和梯度爆炸问题？
介绍一下 LayerNorm 和 BatchNorm 的区别？
在 Agent 多轮对话任务中，Attention 的局限性体现在哪些方面？

2. 大模型训练流程与微调技术

详细描述从 txt 文本预处理到 SFT 训练的全流程（包括 Tokenize、Forward、Loss 计算、参数更新）。
Pretrain、SFT、RLHF 的区别是什么？（目标、任务定位和解决的问题）
Pretrain 和 SFT 在优化目标上的区别是什么？
SFT 的核心流程及数据集构建策略是什么？如何保证样本多样性和质量？
SFT 的 Loss 是什么？若 Target 有 10 或 100 个 Token，Loss 如何计算？
SFT 样本（含 Prompt）与预训练样本在计算 Loss 时的区别？如何屏蔽 Prompt 的 Loss？
手写 SFT 的 loss 计算代码（注意 shift right）。
SFT 之后常见的 Post-Training（如 RLHF）有哪些？它们的目的有何区别？
为什么 SFT 之后还要做 RL？为什么偏好对齐不能直接用偏好数据做 SFT，而要用 RL？

LoRA 相关：

介绍一下 LoRA 的核心原理。秩 r 的选择会对模型表现产生什么影响？如何选择 rank 值？
LoRA 是否只能嵌入 Linear 层？为什么不能插在 LayerNorm 之后？对训练稳定性有什么影响？
LoRA 微调推理的时候要挂着 Adaptor 吗？合并 Adapter 权重时有没有遇到梯度爆炸？
具体说说 QLoRA 是怎么降低资源成本的？常见的量化方式有哪些？为什么选 NF4 和 FP16 组合？NF4 的分布拟合逻辑是什么？
训练 LoRA 模型时，如何选择冻结层？依据是什么？

其他 LLM 训练相关：

Tokenizer 是怎么做的？有哪些实现方式？
Embedding 是怎么做的？从 ID 到 Embedding 有哪些实现方式？
控制模型生成多样性的参数有哪些？如何控制？
top-k 与 top-p 的区别？除了贪心，还有哪些生成策略？
介绍一下常见的优化算法优缺点。为什么 Adam 不一定最优而 SGD 最优？怎么理解分析？
在机器学习里，怎么处理长尾数据和多峰数据？
怎么解决模型的冷启动问题（新模型或新系统上线时缺乏历史数据，导致无法提供有效服务，常见于推荐系统、对话系统等）？LLM 在冷启动方面能够起到什么作用（直接加 prompt）？
大模型幻觉是什么？怎么缓解大模型幻觉？

3. 强化学习与人类对齐 (RLHF)

介绍一下 PPO、DPO、GRPO 的定义、结构区别、优缺点及适用场景。
PPO 的 Clip 机制是什么？为什么公式里面 Clip 了外面还要计算一次 Mean？
Clip 可以限制分布差异，还有哪些方法可以做到？
PPO 和 GRPO 的结构区别，各自适用场景？
DAPO、GSPO 具体做了什么改进？
介绍一下奖励函数的坍缩现象和问题。
多目标优化奖励函数冲突怎么处理？
离线强化学习和在线强化学习有什么区别？RLHF 属于哪一种？
为什么要用 Reference Model？为了解决什么问题？
KL 散度公式是什么？有几种估计方法？

4. Agent 智能体设计与应用

做 Agent 有哪些框架（如 AutoGen、LangChain）？开发范式有哪些？什么情况下应该选择某个框架？
在 Agent 多轮对话任务中，Attention 的局限性体现在哪些方面？
怎么设计 Agent 的记忆系统？长期记忆如何存储？
如果历史记录量非常大，怎么优化查询效率？如何做记忆衰退，避免旧数据干扰新任务？
Agent 是如何实现多步规划（Multi-step Planning）的？
工具调用的调度策略如何设计？是否有异常 Fallback 策略？
如何让多个 Agent 协同工作的？举个具体的协同机制例子。
如果一个 Agent 误判导致策略冲突，如何处理？
Agent 评估体系包括哪些维度？如何衡量 Planning 能力 vs Hallucination Rate？
高并发查询的 Agent 系统中，如何优化召回和生成阶段的延迟？
Prompt 自动推荐模块用了哪些优化策略？有没有尝试过 Prompt 压缩或 Embedding 表示的方式？
如果要做电商 Agent，应该选择哪些模态的信息作为输入（文本评论、图像、视频、购买记录等）？

5. RAG 检索增强生成

什么是 RAG？完整流程是什么？它是怎么提升生成质量的？
标准 RAG 有什么问题？当前 RAG 的最大瓶颈在哪？
RAG 与传统“检索 + 模型生成”的流程有何不同？
如何评估一个 RAG 系统是否 Work？有哪些具体的指标或框架？
构建向量检索库时，如何处理时间衰减对召回的影响？
从数据清洗到检索服务上线的完整链路是怎么搭的？Chunk 切分的具体策略是什么？
知识库搭建需要动态更新时，是用全量嵌入还是增量处理？如何避免新旧文档分布不一致导致的检索偏差？
在 RAG+ 知识图谱的 Agent 系统中，知识图谱更新的机制是怎样的？怎样保证实时性？
把 RAG 做成 Agent 有什么好处？
Embedding 模型和 Rerank 模型分别是怎么处理文本语料的？用场景举一下例子。

6. 推理优化、部署与工程化

分析 Transformer 训练过程中的显存占用和计算复杂度。
KV Cache 是什么？为什么能极大地提升推理速度？
在 multi-query attention 优化中，decoder 延迟高的瓶颈可能是什么？vLLM 的 KV cache 是否会成为负担？
训练过程中怎么去做到对激活值的显存占用控制？有什么参数可以进行控制？（如 Gradient Checkpointing）
是否了解 Swift？DeepSpeed 与 Megatron 的区别是什么？
有没有做过模型压缩？比如在车载端或低端设备上的推理加速？
如果量化后理解能力下降怎么办？怎么做精度补偿？
MOE 层的负载均衡具体怎么做？偏置项 b 如何训练？损失函数如何设计？
在高并发查询 Agent 系统中，你会如何优化召回和生成阶段的延迟？
大规模 Agent 系统在多线程/多进程场景下的资源调度策略如何设计？
如果你要在 GPU 资源有限的条件下同时提供推理和微调服务，如何做资源分配和任务调度以保证时延和吞吐？
场景题：假如一个 Agent 推理链路包含 3 个工具 + 高频请求，系统整体延迟较高，你会如何优化？
部署一个 MOE 架构的千分三的 235B 模型，所需要的算力大概是多少？参数量与硬件需求关系是什么？

7. 多模态与主流模型架构

主流的开源大模型结构有哪些？讲讲 Qwen2.5VL、Llama 等模型及其核心特征。它们如何进行微调和训练？
多模态大模型一般有哪几个组件？什么作用？
视觉跟文本之间的对齐任务是怎么做的？
CLIP 框架描述。CLIP 的文本编码器和图像编码器都是什么？它们分别如何提取特征？
ViT 的结构是什么？
SAM 有哪几个组件？用的什么指标评价？模型性能横向相比大概什么水平？

8. LLM 相关代码实现 (手撕)

写 top-p 和 top-k。
写 LayerNorm 和 RMSNorm。
用 Torch 写 SFT 的 Loss 计算代码（注意 Shift Right）。
手撕交叉熵、Softmax 实现。
介绍一下 QKV 的计算代码实现、手撕 Self-Attention、手撕 Multi-Head Attention (MHA)。
写 RoPE。
写 PPO DPO GRPO 的 loss function。
写 PPO 伪代码、PPO 的 GAE。

posted @ 2026-03-11 15:12 MoonOut 阅读(322) 评论(0) 收藏举报

刷新页面返回顶部

月出兮彩云归 🌙

LLM 算法岗 | 面试常问的 LLM 八股题目汇总

1. Transformer 与模型架构原理

2. 大模型训练流程与微调技术

3. 强化学习与人类对齐 (RLHF)

4. Agent 智能体设计与应用

5. RAG 检索增强生成

6. 推理优化、部署与工程化

7. 多模态与主流模型架构

8. LLM 相关代码实现 (手撕)

公告