2026.1.23总结

大模型工作流程
第一阶段:训练 — 让模型“学习知识”——

此阶段目标是让模型从数据中习得通用的语言规律和世界知识。
数据准备
来源:收集TB乃至PB级别的海量文本数据(网页、书籍、代码、对话等)。
清洗与预处理:去除噪声、重复、有害内容,进行分词(Tokenization,将文本拆分成模型能理解的Token)。
模型架构
核心:采用Transformer架构(如前文所述),这是所有现代大模型的基础。
规模:模型参数巨大(从数十亿到数万亿),通过增加层数(深度)和注意力头数(宽度)来扩展。
预训练
目标:让模型掌握通用语言表示和世界知识。这是最耗时、最耗资源(算力、数据)的阶段。
方法:自监督学习。常用方法是“掩码语言建模”或“下一个词预测”。
下一个词预测:输入“今天天气很”,让模型预测下一个词是“好”。通过在海量数据上反复进行此练习,模型学会了语法、事实、逻辑和常识。
对齐与微调
目标:让预训练好的“通才”模型变成符合人类期望的“专才”助手。
步骤:
有监督微调:使用高质量的指令-回答对数据进行训练。例如,输入“写一首关于春天的诗”,并提供优秀的诗作示例。这教会模型遵循指令。
基于人类反馈的强化学习:让模型生成多个回答,由人类或AI对回答质量排序。基于这个“偏好反馈”训练一个奖励模型,再用强化学习优化主模型,使其生成更符合人类价值观(更安全、有用、无害)的回答。

第二阶段:推理 — 让模型“应用知识”
此阶段是用户与模型交互的过程,模型根据已学知识生成回答。
输入处理
用户的提示词被分词成Token序列,并转换为向量。
提示词工程至关重要,清晰的指令能极大提升输出质量。
前向传播
输入向量经过模型所有层(Transformer块)的复杂计算,最终输出一个整个词表的概率分布,表示下一个词的可能性。
生成策略
模型不是简单地选择概率最高的词,而是采用策略来平衡相关性和创造性:
贪婪搜索:总选概率最高的词。简单快速,但结果可能单调。
集束搜索:保留多个候选序列,最终选择整体概率最高的。质量更稳定。
采样:按概率随机选择下一个词。更具创造性,常用Top-p(核采样)​ 或Top-k来控制随机性范围。
自回归生成
大模型是自回归的:将新生成的词作为输入的一部分,重复“计算 -> 选词 -> 追加”的循环,直到生成结束标记或达到长度限制,从而生成完整的句子或段落。

第三阶段:部署与优化 — 让模型“提供服务”
为了让大模型能以低成本、低延迟服务海量用户,需要进行大量工程优化。
模型压缩与加速
量化:降低模型权重的数值精度(如从32位浮点数降到8位整数),大幅减少内存占用和计算量。
知识蒸馏:用大模型(教师)训练一个小模型(学生),使其保持大部分性能。
模型剪枝:移除模型中不重要的权重或神经元。
高效推理系统
批处理:同时处理多个用户请求,提高GPU利用率。
持续批处理:动态处理不同长度的请求,优化吞吐量。
KV缓存:缓存注意力计算中的中间结果,避免重复计算,极大加速自回归生成。
使用专用推理框架:如vLLM, TensorRT-LLM等,针对大模型推理进行极致优化。
服务与监控
将优化后的模型封装为API服务。
监控延迟、吞吐量、错误率和成本。
设置安全护栏,实时过滤有害或不合规的输出。

posted @ 2026-02-05 23:47  臧博涛  阅读(11)  评论(0)    收藏  举报