LLM 算法岗 | 面试常问的 LLM 八股题目汇总



1. Transformer 与模型架构原理

  • 请介绍 Transformer 的结构组成、各部分作用及底层原理。
  • Transformer 的 forward 计算包含哪些部件?非线性由什么提供?
  • Transformer 为什么能替代 RNN?核心优势是什么?
  • 详细介绍 Self-Attention 机制,包括本质、数学解释、具体计算步骤,及时间复杂度。
  • 为什么要用 Multi-Head Attention?切分为多头的作用是什么?
  • 计算 Attention 的 Softmax 之前为什么要除以根号 \(d_k\)
  • 介绍一下 Transformer 的位置编码(Positional Encoding),还了解其他位置编码吗?
  • 介绍 QKV 的计算。如果在 Transformer 中去掉 K,变成 QQV,会有什么问题?(仅考虑编码器内部)
  • Transformer 是 Encoder-Decoder 架构,而 GPT 是 Decoder-only 架构,为什么会演变成这种形式?为什么生成式任务(如 GPT)通常舍弃 Encoder?
  • Transformer 的 FFN 层为什么会逐渐演变成 MOE(Mixture of Experts)层?
  • MOE 层的负载均衡具体是怎么做的?偏置项 b 是怎么训练的?如何保证偏置项得到变换?
  • 如何降低 Transformer 的计算复杂度?为降低计算复杂度,常见的稀疏注意力变体有哪些?
  • 分析一下 Transformer 训练过程中显存占用和计算复杂度。
  • Self-Attention 机制在多模态对齐上是否存在瓶颈?有没有实际场景里注意力权重完全偏掉的情况?
  • 如何解决梯度消失和梯度爆炸问题?
  • 介绍一下 LayerNorm 和 BatchNorm 的区别?
  • 在 Agent 多轮对话任务中,Attention 的局限性体现在哪些方面?

2. 大模型训练流程与微调技术

  • 详细描述从 txt 文本预处理到 SFT 训练的全流程(包括 Tokenize、Forward、Loss 计算、参数更新)。
  • Pretrain、SFT、RLHF 的区别是什么?(目标、任务定位和解决的问题)
  • Pretrain 和 SFT 在优化目标上的区别是什么?
  • SFT 的核心流程及数据集构建策略是什么?如何保证样本多样性和质量?
  • SFT 的 Loss 是什么?若 Target 有 10 或 100 个 Token,Loss 如何计算?
  • SFT 样本(含 Prompt)与预训练样本在计算 Loss 时的区别?如何屏蔽 Prompt 的 Loss?
  • 手写 SFT 的 loss 计算代码(注意 shift right)。
  • SFT 之后常见的 Post-Training(如 RLHF)有哪些?它们的目的有何区别?
  • 为什么 SFT 之后还要做 RL?为什么偏好对齐不能直接用偏好数据做 SFT,而要用 RL?

LoRA 相关:

  • 介绍一下 LoRA 的核心原理。秩 r 的选择会对模型表现产生什么影响?如何选择 rank 值?
  • LoRA 是否只能嵌入 Linear 层?为什么不能插在 LayerNorm 之后?对训练稳定性有什么影响?
  • LoRA 微调推理的时候要挂着 Adaptor 吗?合并 Adapter 权重时有没有遇到梯度爆炸?
  • 具体说说 QLoRA 是怎么降低资源成本的?常见的量化方式有哪些?为什么选 NF4 和 FP16 组合?NF4 的分布拟合逻辑是什么?
  • 训练 LoRA 模型时,如何选择冻结层?依据是什么?

其他 LLM 训练相关:

  • Tokenizer 是怎么做的?有哪些实现方式?
  • Embedding 是怎么做的?从 ID 到 Embedding 有哪些实现方式?
  • 控制模型生成多样性的参数有哪些?如何控制?
  • top-k 与 top-p 的区别?除了贪心,还有哪些生成策略?
  • 介绍一下常见的优化算法优缺点。为什么 Adam 不一定最优而 SGD 最优?怎么理解分析?
  • 在机器学习里,怎么处理长尾数据和多峰数据?
  • 怎么解决模型的冷启动问题(新模型或新系统上线时缺乏历史数据,导致无法提供有效服务,常见于推荐系统、对话系统等)?LLM 在冷启动方面能够起到什么作用(直接加 prompt)?
  • 大模型幻觉是什么?怎么缓解大模型幻觉?

3. 强化学习与人类对齐 (RLHF)

  • 介绍一下 PPO、DPO、GRPO 的定义、结构区别、优缺点及适用场景。
  • PPO 的 Clip 机制是什么?为什么公式里面 Clip 了外面还要计算一次 Mean?
  • Clip 可以限制分布差异,还有哪些方法可以做到?
  • PPO 和 GRPO 的结构区别,各自适用场景?
  • DAPO、GSPO 具体做了什么改进?
  • 介绍一下奖励函数的坍缩现象和问题。
  • 多目标优化奖励函数冲突怎么处理?
  • 离线强化学习和在线强化学习有什么区别?RLHF 属于哪一种?
  • 为什么要用 Reference Model?为了解决什么问题?
  • KL 散度公式是什么?有几种估计方法?

4. Agent 智能体设计与应用

  • 做 Agent 有哪些框架(如 AutoGen、LangChain)?开发范式有哪些?什么情况下应该选择某个框架?
  • 在 Agent 多轮对话任务中,Attention 的局限性体现在哪些方面?
  • 怎么设计 Agent 的记忆系统?长期记忆如何存储?
  • 如果历史记录量非常大,怎么优化查询效率?如何做记忆衰退,避免旧数据干扰新任务?
  • Agent 是如何实现多步规划(Multi-step Planning)的?
  • 工具调用的调度策略如何设计?是否有异常 Fallback 策略?
  • 如何让多个 Agent 协同工作的?举个具体的协同机制例子。
  • 如果一个 Agent 误判导致策略冲突,如何处理?
  • Agent 评估体系包括哪些维度?如何衡量 Planning 能力 vs Hallucination Rate?
  • 高并发查询的 Agent 系统中,如何优化召回和生成阶段的延迟?
  • Prompt 自动推荐模块用了哪些优化策略?有没有尝试过 Prompt 压缩或 Embedding 表示的方式?
  • 如果要做电商 Agent,应该选择哪些模态的信息作为输入(文本评论、图像、视频、购买记录等)?

5. RAG 检索增强生成

  • 什么是 RAG?完整流程是什么?它是怎么提升生成质量的?
  • 标准 RAG 有什么问题?当前 RAG 的最大瓶颈在哪?
  • RAG 与传统“检索 + 模型生成”的流程有何不同?
  • 如何评估一个 RAG 系统是否 Work?有哪些具体的指标或框架?
  • 构建向量检索库时,如何处理时间衰减对召回的影响?
  • 从数据清洗到检索服务上线的完整链路是怎么搭的?Chunk 切分的具体策略是什么?
  • 知识库搭建需要动态更新时,是用全量嵌入还是增量处理?如何避免新旧文档分布不一致导致的检索偏差?
  • 在 RAG+ 知识图谱的 Agent 系统中,知识图谱更新的机制是怎样的?怎样保证实时性?
  • 把 RAG 做成 Agent 有什么好处?
  • Embedding 模型和 Rerank 模型分别是怎么处理文本语料的?用场景举一下例子。

6. 推理优化、部署与工程化

  • 分析 Transformer 训练过程中的显存占用和计算复杂度。
  • KV Cache 是什么?为什么能极大地提升推理速度?
  • 在 multi-query attention 优化中,decoder 延迟高的瓶颈可能是什么?vLLM 的 KV cache 是否会成为负担?
  • 训练过程中怎么去做到对激活值的显存占用控制?有什么参数可以进行控制?(如 Gradient Checkpointing)
  • 是否了解 Swift?DeepSpeed 与 Megatron 的区别是什么?
  • 有没有做过模型压缩?比如在车载端或低端设备上的推理加速?
  • 如果量化后理解能力下降怎么办?怎么做精度补偿?
  • MOE 层的负载均衡具体怎么做?偏置项 b 如何训练?损失函数如何设计?
  • 在高并发查询 Agent 系统中,你会如何优化召回和生成阶段的延迟?
  • 大规模 Agent 系统在多线程/多进程场景下的资源调度策略如何设计?
  • 如果你要在 GPU 资源有限的条件下同时提供推理和微调服务,如何做资源分配和任务调度以保证时延和吞吐?
  • 场景题:假如一个 Agent 推理链路包含 3 个工具 + 高频请求,系统整体延迟较高,你会如何优化?
  • 部署一个 MOE 架构的千分三的 235B 模型,所需要的算力大概是多少?参数量与硬件需求关系是什么?

7. 多模态与主流模型架构

  • 主流的开源大模型结构有哪些?讲讲 Qwen2.5VL、Llama 等模型及其核心特征。它们如何进行微调和训练?
  • 多模态大模型一般有哪几个组件?什么作用?
  • 视觉跟文本之间的对齐任务是怎么做的?
  • CLIP 框架描述。CLIP 的文本编码器和图像编码器都是什么?它们分别如何提取特征?
  • ViT 的结构是什么?
  • SAM 有哪几个组件?用的什么指标评价?模型性能横向相比大概什么水平?

8. LLM 相关代码实现 (手撕)

  • 写 top-p 和 top-k。
  • 写 LayerNorm 和 RMSNorm。
  • 用 Torch 写 SFT 的 Loss 计算代码(注意 Shift Right)。
  • 手撕交叉熵、Softmax 实现。
  • 介绍一下 QKV 的计算代码实现、手撕 Self-Attention、手撕 Multi-Head Attention (MHA)。
  • 写 RoPE。
  • 写 PPO DPO GRPO 的 loss function。
  • 写 PPO 伪代码、PPO 的 GAE。


posted @ 2026-03-11 15:12  MoonOut  阅读(322)  评论(0)    收藏  举报