2026年4月18日
摘要: 本文已于 2026.04.18 发表于公众号和知乎 本文是《深度学习进阶:自然语言处理》的阅读总结,同时结合最近几年的技术发展,补充一些本书成文后的技术演进,最后是我对技术发展和阅读的思考。 斋藤康毅的《深度学习入门》介绍了最基础的深度学习知识:感知机、激活函数、损失函数、误差反向传播、超参数、正则 阅读全文
posted @ 2026-04-18 12:56 -银光- 阅读(137) 评论(0) 推荐(1)
  2026年4月11日
摘要: 本文已于 2026.04.11 发表于公众号和知乎 1. 权重加载要解决什么问题? 在阅读 vLLM 的权重加载实现之前,先理解它要解决的核心问题。 大模型的权重通常以 checkpoint 文件的形式存储在磁盘上。权重加载的任务就是:把这些文件中的张量,正确地填入模型(推理代码)的每一个参数中。这 阅读全文
posted @ 2026-04-11 17:35 -银光- 阅读(108) 评论(0) 推荐(0)
摘要: 本文已于 2026.02.23 发表于公众号和知乎 1. 背景 mini-sglang 不仅实现了大模型推理的核心功能,更在架构设计上体现出工业级推理引擎的关键特征 —— 多进程架构支撑、功能模块高内聚拆分、关键节点可扩展设计。基于这一架构叠加新功能时,效率和稳定性优势将非常显著。因此,mini-s 阅读全文
posted @ 2026-04-11 17:08 -银光- 阅读(32) 评论(0) 推荐(0)
摘要: 本文已于 2026.01.14 发表于公众号和知乎 1. 简介 面向对象设计(OOP)是传统后台开发领域非常主流的设计思想,但在大模型推理领域,极致的性能往往藏在 DOD(面向数据)的细节里。 本文通过对 mini-sglang 项目 _make_2d_indices 函数的迭代优化,展示了如何通过 阅读全文
posted @ 2026-04-11 16:56 -银光- 阅读(5) 评论(0) 推荐(0)
摘要: 本文已于 2026.01.12 发表于公众号和知乎 1. 背景 Overlap Scheduling 是大模型推理加速的重要手段。从应用视角来说:Overlap Scheduling 适用于有高 QPS 压力的场景,吞吐和 TTFT 通常会更好。如果是低 QPS 的场景,输入压力有限,Overlap 阅读全文
posted @ 2026-04-11 16:51 -银光- 阅读(15) 评论(0) 推荐(0)
  2026年1月12日
摘要: 注:本文已于2025.12.31 发表于知乎和公众号 1. 背景 如果要向一位完全不了解大模型推理技术的开发者介绍这个领域,我应该从哪里讲起? 大模型推理的最简流程可以概括为:输入一串文本 → 文本通过词典映射表转换成一串数字序号 → 序号再经过 embedding 层的计算,变成一组能代表语义的浮 阅读全文
posted @ 2026-01-12 12:38 -银光- 阅读(912) 评论(0) 推荐(1)
  2025年12月8日
摘要: 注:本文已于2025.11.30 发表于知乎和公众号 1. 简介 前序的三篇笔记,先系统总结各种SGLang 分布式集群模式,然后对TP 集群的完整执行流程做解析,再重点介绍 PP 集群的任务调度和分布式通信。本文将讲解 DP Attention 集群,聚焦在任务调度和分布式通信,并着重介绍模型层 阅读全文
posted @ 2025-12-08 00:19 -银光- 阅读(683) 评论(0) 推荐(0)
摘要: 注:本文已于2025.10.26 发表于知乎和公众号 1. 简介 前序的两篇笔记,先系统总结所有 SGLang 分布式集群模式,然后介绍 TP 集群处理请求的完整流程。本文将对 PP 集群做介绍,重点讲解流水线调度、分布式通信组以及通信量推导。PP 模式将模型中的多个层拆分到不同的 GPU 上,集群 阅读全文
posted @ 2025-12-08 00:02 -银光- 阅读(199) 评论(0) 推荐(0)
  2025年12月7日
摘要: 本文已于 2025.09.21 发表于知乎和公众号。 1. 简介 在前序笔记中总结了SGLang 的各种分布式集群模式,本文将进一步总结 TP 模式。TP 模式将模型中的权重张量按行或者列拆分到单机或者多机的多个 GPU 中,每个 GPU 处理部分计算。本文对 SGLang 实现的 TP 模式做简单 阅读全文
posted @ 2025-12-07 23:43 -银光- 阅读(285) 评论(0) 推荐(0)
摘要: 本文已于2025.09.14 发表于知乎和公众号。 计算加速是推理系统优化的终极目标,并行计算是实现该目标的核心手段,而分布式集群则是支撑并行计算落地的底层基础设施。本文概括性的介绍 SGLang 支持的多种分布式集群。 1. 六种分布式集群 SGLang 有多种分布式集群计算加速手段,可以分为三种 阅读全文
posted @ 2025-12-07 23:31 -银光- 阅读(331) 评论(0) 推荐(0)