会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
-银光-
学而时习之,温故而知新
博客园
首页
新随笔
联系
管理
订阅
2026年4月18日
从词向量到大模型:NLP 技术演进浅记
摘要: 本文已于 2026.04.18 发表于公众号和知乎 本文是《深度学习进阶:自然语言处理》的阅读总结,同时结合最近几年的技术发展,补充一些本书成文后的技术演进,最后是我对技术发展和阅读的思考。 斋藤康毅的《深度学习入门》介绍了最基础的深度学习知识:感知机、激活函数、损失函数、误差反向传播、超参数、正则
阅读全文
posted @ 2026-04-18 12:56 -银光-
阅读(137)
评论(0)
推荐(1)
2026年4月11日
vLLM 权重加载机制全解析:从挑战到理想架构
摘要: 本文已于 2026.04.11 发表于公众号和知乎 1. 权重加载要解决什么问题? 在阅读 vLLM 的权重加载实现之前,先理解它要解决的核心问题。 大模型的权重通常以 checkpoint 文件的形式存储在磁盘上。权重加载的任务就是:把这些文件中的张量,正确地填入模型(推理代码)的每一个参数中。这
阅读全文
posted @ 2026-04-11 17:35 -银光-
阅读(108)
评论(0)
推荐(0)
基于 mini-sglang 学习大模型推理关键功能
摘要: 本文已于 2026.02.23 发表于公众号和知乎 1. 背景 mini-sglang 不仅实现了大模型推理的核心功能,更在架构设计上体现出工业级推理引擎的关键特征 —— 多进程架构支撑、功能模块高内聚拆分、关键节点可扩展设计。基于这一架构叠加新功能时,效率和稳定性优势将非常显著。因此,mini-s
阅读全文
posted @ 2026-04-11 17:08 -银光-
阅读(32)
评论(0)
推荐(0)
【短文】大模型推理加速:从面向对象到面向数据设计
摘要: 本文已于 2026.01.14 发表于公众号和知乎 1. 简介 面向对象设计(OOP)是传统后台开发领域非常主流的设计思想,但在大模型推理领域,极致的性能往往藏在 DOD(面向数据)的细节里。 本文通过对 mini-sglang 项目 _make_2d_indices 函数的迭代优化,展示了如何通过
阅读全文
posted @ 2026-04-11 16:56 -银光-
阅读(5)
评论(0)
推荐(0)
大模型推理加速:Overlap Scheduling 的深入剖析与性能权衡艺术
摘要: 本文已于 2026.01.12 发表于公众号和知乎 1. 背景 Overlap Scheduling 是大模型推理加速的重要手段。从应用视角来说:Overlap Scheduling 适用于有高 QPS 压力的场景,吞吐和 TTFT 通常会更好。如果是低 QPS 的场景,输入压力有限,Overlap
阅读全文
posted @ 2026-04-11 16:51 -银光-
阅读(15)
评论(0)
推荐(0)
2026年1月12日
基于 nano-vLLM 学习大模型推理关键功能
摘要: 注:本文已于2025.12.31 发表于知乎和公众号 1. 背景 如果要向一位完全不了解大模型推理技术的开发者介绍这个领域,我应该从哪里讲起? 大模型推理的最简流程可以概括为:输入一串文本 → 文本通过词典映射表转换成一串数字序号 → 序号再经过 embedding 层的计算,变成一组能代表语义的浮
阅读全文
posted @ 2026-01-12 12:38 -银光-
阅读(912)
评论(0)
推荐(1)
2025年12月8日
SGLang 的 DP Attention 模式浅析
摘要: 注:本文已于2025.11.30 发表于知乎和公众号 1. 简介 前序的三篇笔记,先系统总结各种SGLang 分布式集群模式,然后对TP 集群的完整执行流程做解析,再重点介绍 PP 集群的任务调度和分布式通信。本文将讲解 DP Attention 集群,聚焦在任务调度和分布式通信,并着重介绍模型层
阅读全文
posted @ 2025-12-08 00:19 -银光-
阅读(683)
评论(0)
推荐(0)
SGLang 的 PP 模式浅析
摘要: 注:本文已于2025.10.26 发表于知乎和公众号 1. 简介 前序的两篇笔记,先系统总结所有 SGLang 分布式集群模式,然后介绍 TP 集群处理请求的完整流程。本文将对 PP 集群做介绍,重点讲解流水线调度、分布式通信组以及通信量推导。PP 模式将模型中的多个层拆分到不同的 GPU 上,集群
阅读全文
posted @ 2025-12-08 00:02 -银光-
阅读(199)
评论(0)
推荐(0)
2025年12月7日
SGLang 的 TP 模式浅析
摘要: 本文已于 2025.09.21 发表于知乎和公众号。 1. 简介 在前序笔记中总结了SGLang 的各种分布式集群模式,本文将进一步总结 TP 模式。TP 模式将模型中的权重张量按行或者列拆分到单机或者多机的多个 GPU 中,每个 GPU 处理部分计算。本文对 SGLang 实现的 TP 模式做简单
阅读全文
posted @ 2025-12-07 23:43 -银光-
阅读(285)
评论(0)
推荐(0)
SGLang 分布式集群模式概览
摘要: 本文已于2025.09.14 发表于知乎和公众号。 计算加速是推理系统优化的终极目标,并行计算是实现该目标的核心手段,而分布式集群则是支撑并行计算落地的底层基础设施。本文概括性的介绍 SGLang 支持的多种分布式集群。 1. 六种分布式集群 SGLang 有多种分布式集群计算加速手段,可以分为三种
阅读全文
posted @ 2025-12-07 23:31 -银光-
阅读(331)
评论(0)
推荐(0)
下一页
公告