摘要:
大模型工作流程 第一阶段:训练 — 让模型“学习知识”—— 此阶段目标是让模型从数据中习得通用的语言规律和世界知识。 数据准备 来源:收集TB乃至PB级别的海量文本数据(网页、书籍、代码、对话等)。 清洗与预处理:去除噪声、重复、有害内容,进行分词(Tokenization,将文本拆分成模型能理解的 阅读全文
posted @ 2026-02-05 23:47
臧博涛
阅读(9)
评论(0)
推荐(0)
摘要:
Transformer 架构的了解 、 Transformer 是一种完全基于自注意力机制的深度学习模型架构。它摒弃了传统的循环(RNN)和卷积(CNN)结构,通过并行计算全局依赖关系,在自然语言处理等领域取得了突破性成果。 自注意力机制:模型能够同时关注输入序列中的所有元素,并动态计算它们之间的关 阅读全文
posted @ 2026-02-05 23:44
臧博涛
阅读(3)
评论(0)
推荐(0)

浙公网安备 33010602011771号