上一页 1 ··· 10 11 12 13 14 15 16 17 18 ··· 82 下一页
摘要: 目录一、先给一句“严格定义”二、用一个具体输入完整跑一遍输入 Prompt(用户发给 API)1️⃣ Tokenizer 后(示意)三、Prefill(回顾,用一句带过)四、Decode 的逐步展开(关键部分)Decode Step 1(生成第 1 个新 token)输入给模型的是什么?模型内部做什 阅读全文
posted @ 2026-01-20 15:30 向着朝阳 阅读(58) 评论(0) 推荐(0)
摘要: 目录原理细节一、结论先行(精确版)二、Prefix Caching 在 vLLM 中到底做了什么1️⃣ 没开 Prefix Caching(你现在的状态)2️⃣ 开了 --enable-prefix-caching三、为什么我说“不是字符串层面”1️⃣ tokenizer 是决定性因素2️⃣ 模板稍 阅读全文
posted @ 2026-01-20 14:54 向着朝阳 阅读(889) 评论(0) 推荐(0)
摘要: 目录一、单参数扫描 vs 多参数联合扫描1️⃣ 单参数扫描(推荐先做)2️⃣ 多参数联合扫描(Grid Search / Random Search)二、实践中的工程思路(4090 + vLLM 14B AWQ 场景)Step 1:单参数扫描Step 2:范围缩小后联合扫描Step 3:指标记录与可 阅读全文
posted @ 2026-01-20 13:07 向着朝阳 阅读(108) 评论(0) 推荐(0)
摘要: 目录总结三、使用 --enable-flash-attn 的前提条件(很重要)✅ 硬件要求一、--enable-flash-attn 是做什么的(原理层)1️⃣ 传统 Attention 的问题2️⃣ FlashAttention 的核心思想二、在 vLLM + Qwen 14B + RTX 409 阅读全文
posted @ 2026-01-20 12:08 向着朝阳 阅读(434) 评论(0) 推荐(0)
摘要: 目录最终版:4090 24G 部署 Qwen 14B-AWQ 命令关键参数解释(针对学习场景)学习测试配套命令(验证优化效果)总结 结合 4090 24G 显卡特性 + FlashAttention 核心优化 + 适配 Qwen 14B-AWQ 的学习场景,我为你整理了最优的 vLLM 部署命令,兼 阅读全文
posted @ 2026-01-20 11:52 向着朝阳 阅读(124) 评论(0) 推荐(0)
摘要: 目录大模型推理核心指标及定义表MeanMedian理想值一、你列的这些是不是核心指标?——结论二、每个指标到底衡量什么(非常关键)1️⃣ 吞吐量(Throughput)常见形式含义vLLM 场景下你应该重点看:2️⃣ TTFT(Time To First Token)——极其重要定义3️⃣ Mean 阅读全文
posted @ 2026-01-20 08:39 向着朝阳 阅读(185) 评论(0) 推荐(0)
摘要: 目录 启动脚本 #!/usr/bin/env bash set -e export CUDA_VISIBLE_DEVICES=0 python -m vllm.entrypoints.openai.api_server \ --model /data/models/Qwen1.5-14B-Chat- 阅读全文
posted @ 2026-01-19 22:44 向着朝阳 阅读(13) 评论(0) 推荐(0)
摘要: 目录短文本测试中等长度测试长文本测试 短文本测试 vllm bench serve --model /data/models/Qwen1.5-14B-Chat-AWQ --backend vllm --base-url http://localhost:8000 --endpoint /v1/com 阅读全文
posted @ 2026-01-19 22:26 向着朝阳 阅读(121) 评论(0) 推荐(0)
摘要: 目录查看模型路径压测命令安装压力测试工具或者用官方示例 Python 脚本实时监控显存/GPU使用率或者查看特定进程top 或 htop 实时查看或者更精确 查看模型路径 curl http://127.0.0.1:8000/v1/models {"object":"list","data":[{" 阅读全文
posted @ 2026-01-19 22:17 向着朝阳 阅读(18) 评论(0) 推荐(0)
摘要: 目录1. 最简单 - 查看总体状态2. 查看进程列表和显存3. 查看进程显存占用(CSV 格式,易读)4. 找到占用 GPU 的所有进程 PID5. 查看某个 PID 的详细信息(替换 )6. 杀掉某个进程(替换 )7. 批量杀掉所有占用 GPU 的进程 1. 最简单 - 查看总体状态 nvidia 阅读全文
posted @ 2026-01-19 22:10 向着朝阳 阅读(41) 评论(0) 推荐(0)
上一页 1 ··· 10 11 12 13 14 15 16 17 18 ··· 82 下一页