摘要:
目录一、先给一句“严格定义”二、用一个具体输入完整跑一遍输入 Prompt(用户发给 API)1️⃣ Tokenizer 后(示意)三、Prefill(回顾,用一句带过)四、Decode 的逐步展开(关键部分)Decode Step 1(生成第 1 个新 token)输入给模型的是什么?模型内部做什 阅读全文
posted @ 2026-01-20 15:30
向着朝阳
阅读(58)
评论(0)
推荐(0)
摘要:
目录原理细节一、结论先行(精确版)二、Prefix Caching 在 vLLM 中到底做了什么1️⃣ 没开 Prefix Caching(你现在的状态)2️⃣ 开了 --enable-prefix-caching三、为什么我说“不是字符串层面”1️⃣ tokenizer 是决定性因素2️⃣ 模板稍 阅读全文
posted @ 2026-01-20 14:54
向着朝阳
阅读(889)
评论(0)
推荐(0)
摘要:
目录一、单参数扫描 vs 多参数联合扫描1️⃣ 单参数扫描(推荐先做)2️⃣ 多参数联合扫描(Grid Search / Random Search)二、实践中的工程思路(4090 + vLLM 14B AWQ 场景)Step 1:单参数扫描Step 2:范围缩小后联合扫描Step 3:指标记录与可 阅读全文
posted @ 2026-01-20 13:07
向着朝阳
阅读(108)
评论(0)
推荐(0)
摘要:
目录总结三、使用 --enable-flash-attn 的前提条件(很重要)✅ 硬件要求一、--enable-flash-attn 是做什么的(原理层)1️⃣ 传统 Attention 的问题2️⃣ FlashAttention 的核心思想二、在 vLLM + Qwen 14B + RTX 409 阅读全文
posted @ 2026-01-20 12:08
向着朝阳
阅读(434)
评论(0)
推荐(0)
摘要:
目录最终版:4090 24G 部署 Qwen 14B-AWQ 命令关键参数解释(针对学习场景)学习测试配套命令(验证优化效果)总结 结合 4090 24G 显卡特性 + FlashAttention 核心优化 + 适配 Qwen 14B-AWQ 的学习场景,我为你整理了最优的 vLLM 部署命令,兼 阅读全文
posted @ 2026-01-20 11:52
向着朝阳
阅读(124)
评论(0)
推荐(0)
摘要:
目录大模型推理核心指标及定义表MeanMedian理想值一、你列的这些是不是核心指标?——结论二、每个指标到底衡量什么(非常关键)1️⃣ 吞吐量(Throughput)常见形式含义vLLM 场景下你应该重点看:2️⃣ TTFT(Time To First Token)——极其重要定义3️⃣ Mean 阅读全文
posted @ 2026-01-20 08:39
向着朝阳
阅读(185)
评论(0)
推荐(0)

浙公网安备 33010602011771号