向着朝阳 - 博客园

2026年1月20日

摘要：目录一、先给一句“严格定义”二、用一个具体输入完整跑一遍输入 Prompt（用户发给 API）1️⃣ Tokenizer 后（示意）三、Prefill（回顾，用一句带过）四、Decode 的逐步展开（关键部分）Decode Step 1（生成第 1 个新 token）输入给模型的是什么？模型内部做什阅读全文

posted @ 2026-01-20 15:30 向着朝阳阅读(58) 评论(0) 推荐(0)

vllm 调优参数（2）--enable-prefix-caching

摘要：目录原理细节一、结论先行（精确版）二、Prefix Caching 在 vLLM 中到底做了什么1️⃣ 没开 Prefix Caching（你现在的状态）2️⃣ 开了 --enable-prefix-caching三、为什么我说“不是字符串层面”1️⃣ tokenizer 是决定性因素2️⃣ 模板稍阅读全文

posted @ 2026-01-20 14:54 向着朝阳阅读(889) 评论(0) 推荐(0)

vLLM多参数循序渐进式调整

摘要：目录一、单参数扫描 vs 多参数联合扫描1️⃣ 单参数扫描（推荐先做）2️⃣ 多参数联合扫描（Grid Search / Random Search）二、实践中的工程思路（4090 + vLLM 14B AWQ 场景）Step 1：单参数扫描Step 2：范围缩小后联合扫描Step 3：指标记录与可阅读全文

posted @ 2026-01-20 13:07 向着朝阳阅读(108) 评论(0) 推荐(0)

vllm 调优参数（1）---enable-flash-attn

摘要：目录总结三、使用 --enable-flash-attn 的前提条件（很重要）✅ 硬件要求一、--enable-flash-attn 是做什么的（原理层）1️⃣ 传统 Attention 的问题2️⃣ FlashAttention 的核心思想二、在 vLLM + Qwen 14B + RTX 409 阅读全文

posted @ 2026-01-20 12:08 向着朝阳阅读(434) 评论(0) 推荐(0)

vLLM推理加速优化

摘要：目录最终版：4090 24G 部署 Qwen 14B-AWQ 命令关键参数解释（针对学习场景）学习测试配套命令（验证优化效果）总结结合 4090 24G 显卡特性 + FlashAttention 核心优化 + 适配 Qwen 14B-AWQ 的学习场景，我为你整理了最优的 vLLM 部署命令，兼阅读全文

posted @ 2026-01-20 11:52 向着朝阳阅读(124) 评论(0) 推荐(0)

大模型benchmark（指标）

摘要：目录大模型推理核心指标及定义表MeanMedian理想值一、你列的这些是不是核心指标？——结论二、每个指标到底衡量什么（非常关键）1️⃣ 吞吐量（Throughput）常见形式含义vLLM 场景下你应该重点看：2️⃣ TTFT（Time To First Token）——极其重要定义3️⃣ Mean 阅读全文

posted @ 2026-01-20 08:39 向着朝阳阅读(185) 评论(0) 推荐(0)

2026年1月19日

部署qwen14B 实战

摘要：目录启动脚本 #!/usr/bin/env bash set -e export CUDA_VISIBLE_DEVICES=0 python -m vllm.entrypoints.openai.api_server \ --model /data/models/Qwen1.5-14B-Chat- 阅读全文

posted @ 2026-01-19 22:44 向着朝阳阅读(13) 评论(0) 推荐(0)

vLLM 大模型性能测试

摘要：目录短文本测试中等长度测试长文本测试短文本测试 vllm bench serve --model /data/models/Qwen1.5-14B-Chat-AWQ --backend vllm --base-url http://localhost:8000 --endpoint /v1/com 阅读全文

posted @ 2026-01-19 22:26 向着朝阳阅读(121) 评论(0) 推荐(0)

大模型部署测试

摘要：目录查看模型路径压测命令安装压力测试工具或者用官方示例 Python 脚本实时监控显存/GPU使用率或者查看特定进程top 或 htop 实时查看或者更精确查看模型路径 curl http://127.0.0.1:8000/v1/models {"object":"list","data":[{" 阅读全文

posted @ 2026-01-19 22:17 向着朝阳阅读(18) 评论(0) 推荐(0)

gpu诊断命令

摘要：目录1. 最简单 - 查看总体状态2. 查看进程列表和显存3. 查看进程显存占用（CSV 格式，易读）4. 找到占用 GPU 的所有进程 PID5. 查看某个 PID 的详细信息（替换）6. 杀掉某个进程（替换）7. 批量杀掉所有占用 GPU 的进程 1. 最简单 - 查看总体状态 nvidia 阅读全文

posted @ 2026-01-19 22:10 向着朝阳阅读(41) 评论(0) 推荐(0)

aibi1

公告