摘要:
目录1️⃣ 顶部信息2️⃣ GPU 列表3️⃣ 进程列表4️⃣ 总结 watch -n 2 "nvidia-smi --query-gpu=timestamp,utilization.gpu,memory.used,memory.total,temperature.gpu --format=csv" 阅读全文
posted @ 2026-01-19 21:03
向着朝阳
阅读(157)
评论(0)
推荐(0)
摘要:
目录一句话结论(先记住)一、Ray 的资源模型(核心概念)二、Ray 实际调度的是“服务器里的哪张 GPU”1️⃣ GPU 在 Ray 中的表示2️⃣ Ray 不会把一整个服务器“绑死”三、Ray 管理粒度总结四、Ray 与 vLLM 的“职责边界”(非常重要)当 Ray + vLLM 一起用时五、 阅读全文
posted @ 2026-01-19 17:54
向着朝阳
阅读(68)
评论(0)
推荐(0)
摘要:
目录1. 确保在 py312 环境2. 卸载冲突包3. 安装依赖,先基础包使用官方AWQ量化后的模型部署1️⃣ 问题背景2️⃣ --model Qwen/Qwen-14B-AWQ3️⃣ --quantization awq4️⃣ 总结逻辑BitsAndBytes 量化后部署脚本1️⃣ 你需要做的修改 阅读全文
posted @ 2026-01-19 16:58
向着朝阳
阅读(104)
评论(0)
推荐(0)
摘要:
目录2️⃣ Ray 的作用 2️⃣ Ray 的作用 Ray / 分布式调度主要用于: 多节点 / 多模型请求调度 自动把请求分配到最空闲的 worker 处理大规模并发请求(千 QPS 级别) 多模型/异构 GPU 调度 同时部署小模型 + 大模型,或者不同上下文规格模型 自动路由请求到合适 GPU 阅读全文
posted @ 2026-01-19 16:12
向着朝阳
阅读(6)
评论(0)
推荐(0)
摘要:
目录1️⃣ 基础阶段能力(必会)2️⃣ 优化阶段能力(加分项)高阶高阶学习展开高阶阶段学习优先级📌 总结优先级表 1️⃣ 基础阶段能力(必会) Python / PyTorch 基础 能够加载大模型,执行前向推理 能理解 GPU 显存使用、device 管理 vLLM 基本使用 单 GPU 上运行 阅读全文
posted @ 2026-01-19 16:08
向着朝阳
阅读(41)
评论(0)
推荐(0)
摘要:
目录总结AWQ/GPTQ 只在高精度/特殊硬件场景才用。1️⃣ “高精度”场景具体表现:2️⃣ “特殊硬件场景”具体表现:3️⃣ 结合来看对比表格 总结 LoRA 微调阶段不量化 → 推理阶段再 8bit 量化 → BitsAndBytes 足够工业生产。AWQ/GPTQ 只在高精度/特殊硬件场景才 阅读全文
posted @ 2026-01-19 15:54
向着朝阳
阅读(58)
评论(0)
推荐(0)
摘要:
目录一、通用结论(直接可用)大模型存放的目录模型下载目录:这是最重要的点1️⃣ HuggingFace 默认行为(不推荐长期用)2️⃣ 正确做法:显式指定模型目录(强烈推荐)方法一:设置环境变量(最常用)方法二:直接指定模型路径(vLLM 最推荐)四、vLLM 部署脚本一般放哪里?推荐:专门一个 s 阅读全文
posted @ 2026-01-19 14:00
向着朝阳
阅读(184)
评论(0)
推荐(0)

浙公网安备 33010602011771号