-银光- - 博客园

2026年5月6日

摘要：

本文已于 2026.05.06 发表于公众号和知乎。五一本打算更新一年前写的开源引擎 KVCache 实现文档，但梳理下来发现，光是 KVCache 演进的理论部分就已足够撑起一篇独立文章。在 Agent 改变搜索习惯、重塑软件行业的今天，多轮交互带来的长上下文让 KVCache 持续膨胀，显存瓶阅读全文

posted @ 2026-05-06 17:46 -银光- 阅读(6811) 评论(1) 推荐(28)

2026年4月27日

大模型推理引擎中的 Beam Search：工程挑战、主流实现与 SGLang 深度优化

摘要：本文已于 2026.04.26 发表于公众号和知乎。目录 1. Beam Search 是什么 2. 性能评测 3. Beam Search 工程的核心挑战 4. vLLM 的 Beam Search 实现方案 5. Transformers 的 Beam Search 实现方案简介 6. Ten 阅读全文

posted @ 2026-04-27 00:22 -银光- 阅读(572) 评论(2) 推荐(1)

2026年4月18日

从词向量到大模型：NLP 技术演进浅记

摘要：本文已于 2026.04.18 发表于公众号和知乎本文是《深度学习进阶：自然语言处理》的阅读总结，同时结合最近几年的技术发展，补充一些本书成文后的技术演进，最后是我对技术发展和阅读的思考。斋藤康毅的《深度学习入门》介绍了最基础的深度学习知识：感知机、激活函数、损失函数、误差反向传播、超参数、正则阅读全文

posted @ 2026-04-18 12:57 -银光- 阅读(269) 评论(0) 推荐(1)

2026年4月11日

vLLM 权重加载机制全解析：从挑战到理想架构

摘要：本文已于 2026.04.11 发表于公众号和知乎 1. 权重加载要解决什么问题？在阅读 vLLM 的权重加载实现之前，先理解它要解决的核心问题。大模型的权重通常以 checkpoint 文件的形式存储在磁盘上。权重加载的任务就是：把这些文件中的张量，正确地填入模型(推理代码)的每一个参数中。这阅读全文

posted @ 2026-04-11 17:35 -银光- 阅读(274) 评论(0) 推荐(0)

基于 mini-sglang 学习大模型推理关键功能

摘要：本文已于 2026.02.23 发表于公众号和知乎 1. 背景 mini-sglang 不仅实现了大模型推理的核心功能，更在架构设计上体现出工业级推理引擎的关键特征 —— 多进程架构支撑、功能模块高内聚拆分、关键节点可扩展设计。基于这一架构叠加新功能时，效率和稳定性优势将非常显著。因此，mini-s 阅读全文

posted @ 2026-04-11 17:08 -银光- 阅读(256) 评论(0) 推荐(0)

【短文】大模型推理加速：从面向对象到面向数据设计

摘要：本文已于 2026.01.14 发表于公众号和知乎 1. 简介面向对象设计（OOP）是传统后台开发领域非常主流的设计思想，但在大模型推理领域，极致的性能往往藏在 DOD（面向数据）的细节里。本文通过对 mini-sglang 项目 _make_2d_indices 函数的迭代优化，展示了如何通过阅读全文

posted @ 2026-04-11 16:56 -银光- 阅读(35) 评论(0) 推荐(0)

大模型推理加速：Overlap Scheduling 的深入剖析与性能权衡艺术

摘要：本文已于 2026.01.12 发表于公众号和知乎 1. 背景 Overlap Scheduling 是大模型推理加速的重要手段。从应用视角来说：Overlap Scheduling 适用于有高 QPS 压力的场景，吞吐和 TTFT 通常会更好。如果是低 QPS 的场景，输入压力有限，Overlap 阅读全文

posted @ 2026-04-11 16:51 -银光- 阅读(115) 评论(0) 推荐(0)

2026年1月12日

基于 nano-vLLM 学习大模型推理关键功能

摘要：注：本文已于2025.12.31 发表于知乎和公众号 1. 背景如果要向一位完全不了解大模型推理技术的开发者介绍这个领域，我应该从哪里讲起？大模型推理的最简流程可以概括为：输入一串文本 → 文本通过词典映射表转换成一串数字序号 → 序号再经过 embedding 层的计算，变成一组能代表语义的浮阅读全文

posted @ 2026-01-12 12:38 -银光- 阅读(1347) 评论(0) 推荐(1)

2025年12月8日

SGLang 的 DP Attention 模式浅析

摘要：注：本文已于2025.11.30 发表于知乎和公众号 1. 简介前序的三篇笔记，先系统总结各种SGLang 分布式集群模式，然后对TP 集群的完整执行流程做解析，再重点介绍 PP 集群的任务调度和分布式通信。本文将讲解 DP Attention 集群，聚焦在任务调度和分布式通信，并着重介绍模型层阅读全文

posted @ 2025-12-08 00:19 -银光- 阅读(1276) 评论(0) 推荐(0)

SGLang 的 PP 模式浅析

摘要：注：本文已于2025.10.26 发表于知乎和公众号 1. 简介前序的两篇笔记，先系统总结所有 SGLang 分布式集群模式，然后介绍 TP 集群处理请求的完整流程。本文将对 PP 集群做介绍，重点讲解流水线调度、分布式通信组以及通信量推导。PP 模式将模型中的多个层拆分到不同的 GPU 上，集群阅读全文

posted @ 2025-12-08 00:02 -银光- 阅读(322) 评论(0) 推荐(0)

公告