2026.1.23总结

大模型工作流程
第一阶段：训练 — 让模型“学习知识”——

此阶段目标是让模型从数据中习得通用的语言规律和世界知识。
数据准备
来源：收集TB乃至PB级别的海量文本数据（网页、书籍、代码、对话等）。
清洗与预处理：去除噪声、重复、有害内容，进行分词（Tokenization，将文本拆分成模型能理解的Token）。
模型架构
核心：采用Transformer架构（如前文所述），这是所有现代大模型的基础。
规模：模型参数巨大（从数十亿到数万亿），通过增加层数（深度）和注意力头数（宽度）来扩展。
预训练
目标：让模型掌握通用语言表示和世界知识。这是最耗时、最耗资源（算力、数据）的阶段。
方法：自监督学习。常用方法是“掩码语言建模”或“下一个词预测”。
下一个词预测：输入“今天天气很”，让模型预测下一个词是“好”。通过在海量数据上反复进行此练习，模型学会了语法、事实、逻辑和常识。
对齐与微调
目标：让预训练好的“通才”模型变成符合人类期望的“专才”助手。
步骤：
有监督微调：使用高质量的指令-回答对数据进行训练。例如，输入“写一首关于春天的诗”，并提供优秀的诗作示例。这教会模型遵循指令。
基于人类反馈的强化学习：让模型生成多个回答，由人类或AI对回答质量排序。基于这个“偏好反馈”训练一个奖励模型，再用强化学习优化主模型，使其生成更符合人类价值观（更安全、有用、无害）的回答。

第二阶段：推理 — 让模型“应用知识”
此阶段是用户与模型交互的过程，模型根据已学知识生成回答。
输入处理
用户的提示词被分词成Token序列，并转换为向量。
提示词工程至关重要，清晰的指令能极大提升输出质量。
前向传播
输入向量经过模型所有层（Transformer块）的复杂计算，最终输出一个整个词表的概率分布，表示下一个词的可能性。
生成策略
模型不是简单地选择概率最高的词，而是采用策略来平衡相关性和创造性：
贪婪搜索：总选概率最高的词。简单快速，但结果可能单调。
集束搜索：保留多个候选序列，最终选择整体概率最高的。质量更稳定。
采样：按概率随机选择下一个词。更具创造性，常用Top-p（核采样）或Top-k来控制随机性范围。
自回归生成
大模型是自回归的：将新生成的词作为输入的一部分，重复“计算 -> 选词 -> 追加”的循环，直到生成结束标记或达到长度限制，从而生成完整的句子或段落。

第三阶段：部署与优化 — 让模型“提供服务”
为了让大模型能以低成本、低延迟服务海量用户，需要进行大量工程优化。
模型压缩与加速
量化：降低模型权重的数值精度（如从32位浮点数降到8位整数），大幅减少内存占用和计算量。
知识蒸馏：用大模型（教师）训练一个小模型（学生），使其保持大部分性能。
模型剪枝：移除模型中不重要的权重或神经元。
高效推理系统
批处理：同时处理多个用户请求，提高GPU利用率。
持续批处理：动态处理不同长度的请求，优化吞吐量。
KV缓存：缓存注意力计算中的中间结果，避免重复计算，极大加速自回归生成。
使用专用推理框架：如vLLM, TensorRT-LLM等，针对大模型推理进行极致优化。
服务与监控
将优化后的模型封装为API服务。
监控延迟、吞吐量、错误率和成本。
设置安全护栏，实时过滤有害或不合规的输出。

posted @ 2026-02-05 23:47 臧博涛阅读(11) 评论(0) 收藏举报

刷新页面返回顶部

zangbotao

2026.1.23总结

公告