会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
aibi1
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
9
10
11
12
13
14
15
16
17
···
82
下一页
2026年1月22日
AI技术+短剧
摘要: 目录先拆解这个岗位的核心要求,帮你看清「门槛在哪、你的优势在哪、补什么就行」关键结论:这个岗位的「门槛」是AI技术+短剧行业认知,而非「创作能力」,对你是低适配成本快速适配的3个核心动作(1-2周就能落地,能直接写进简历/面试展示)1. 选准多模态工具,深耕「技术落地」而非创作(不用全学,精2个就够
阅读全文
posted @ 2026-01-22 11:15 向着朝阳
阅读(190)
评论(0)
推荐(0)
2026年1月21日
vllm实战- 解决TTFT响应慢的问题
摘要: 目录 大 batch token + seq → 模型一次计算更多 token GPU kernel / tensor parallel 高效运行 → 单条请求的等待时间被 amortized(摊薄) 因此 单条请求 TTFT 中位反而下降 📊 Benchmark 测试 max-num-seqs
阅读全文
posted @ 2026-01-21 17:57 向着朝阳
阅读(44)
评论(0)
推荐(0)
max-num-batched-tokens计算方法
摘要: 目录1️⃣ 参数本质回顾2️⃣ 理论计算方法3️⃣ 一般范围seq计算1️⃣ KV cache 本质2️⃣ 假设参数3️⃣ 代入公式4️⃣ 面试说明点 明白,你想深入了解 --max-num-batched-tokens 的范围和计算方法,不仅是经验值,也要能理性说明。我们分步骤分析。 1️⃣ 参数
阅读全文
posted @ 2026-01-21 17:07 向着朝阳
阅读(415)
评论(0)
推荐(0)
2026年1月20日
高级推理优化技术-SGLang
摘要: 目录一、vLLM + Ray 的能力二、vLLM + Ray 的局限性三、SGLang 提供的额外价值四、总结 你的问题很实际,我来系统说明一下:为什么 vLLM + Ray 对大部分场景已经够用,但有些场景仍然会考虑 SGLang。 一、vLLM + Ray 的能力 vLLM 高效单机 / 多 G
阅读全文
posted @ 2026-01-20 18:55 向着朝阳
阅读(156)
评论(0)
推荐(0)
高级推理优化技术-MLA
摘要: 目录一、核心关系二、MLA 在 vLLM 中的应用点三、使用方式四、总结 MLA(Memory & Latency Aware / Memory Layout Aware)是 大模型推理的高级优化策略,主要针对高 QPS 或长上下文、超大模型部署的场景。它不是入门级开发必须掌握的内容。 明白,你想知
阅读全文
posted @ 2026-01-20 18:46 向着朝阳
阅读(183)
评论(0)
推荐(0)
推理加速-高阶- Speculative Decoding
摘要: 目录一、vLLM 的本职功能二、如何在 vLLM 上实现 Speculative Decoding三、工程可行性四、总结 答案是 支持扩展,但不是开箱就有,需要自己做一些集成和改造。详细分析如下: 一、vLLM 的本职功能 vLLM 主要提供: 高效推理: KV Cache 管理 FlashAtte
阅读全文
posted @ 2026-01-20 18:40 向着朝阳
阅读(83)
评论(0)
推荐(0)
vllm调参-gpu-memory-utilization
摘要: 目录参数设置实践一、vLLM 显存占用与 OOM 的关系二、如何在压测时发现潜在 OOM1️⃣ 观察指标2️⃣ “危险显存占比”参考三、调节策略1️⃣ 调整 --gpu-memory-utilization2️⃣ 调整 batch_token / seq3️⃣ 压测建议四、工程实践经验查看显存使用情
阅读全文
posted @ 2026-01-20 16:35 向着朝阳
阅读(988)
评论(0)
推荐(0)
vllm调参执行顺序最佳实践
摘要: 目录一、先给结论:推荐的生产级调优顺序(修正版)✅ 推荐顺序(你可以直接照这个跑)Step 1:确定业务级 max-model-len(你这一步是对的)Step 2:单参数扫 max-num-batched-tokens(不是 seq)为什么优先 batch_token?Step 3:在 batch
阅读全文
posted @ 2026-01-20 16:00 向着朝阳
阅读(95)
评论(0)
推荐(0)
vllm微调最佳实践
摘要: 目录1️⃣ 参数含义max_num_batched_tokens--max-num-seqsvLLM 调参总览(生产 vs 实验)一、生产环境 必调参数(强相关稳定性 & 性能)二、生产环境强烈建议(在线服务关键优化)三、“看场景用”的参数(半生产 / 半实验)四、实验 / Benchmark /
阅读全文
posted @ 2026-01-20 15:47 向着朝阳
阅读(456)
评论(0)
推荐(0)
prefill 原理
摘要: 目录一、一句话定义(先记住这个)二、一次完整推理在 vLLM 里的两个阶段三、Prefill 在“干什么”Prefill 阶段做的事情四、Decode 是什么(对比理解)Decode 阶段:五、Prefill vs Decode:性能差异(非常重要)六、为什么 Prefill 会成为性能瓶颈1️⃣
阅读全文
posted @ 2026-01-20 15:41 向着朝阳
阅读(175)
评论(0)
推荐(0)
上一页
1
···
9
10
11
12
13
14
15
16
17
···
82
下一页
公告