大模型测评都在造假:这 3 个指标根本测不出真实能力
每次大模型发布,各家榜单数据都很好看,但真到业务上线,响应抖动、长文本乱飘、成本超预算这些问题一个不少。根子在哪?大多数测评只看"平均值",而平均值是最没用的指标。
一、测评榜单为什么骗了你
主流测评平台——无论是 LMSYS Arena、OpenCompass,还是知乎上随处可见的横评文章——都有一个共同盲区:测的是受控实验,不是生产流量。
三个具体问题:
- 只报 P50,不报 P99。平均延迟 400ms 看起来不错,但 P99 可能是 4s——这 1% 的请求落在高峰期就是一批超时报错。
- 单轮问答测质量,不测多轮漂移。对话到第 8 轮,部分模型开始"遗忘"早期上下文,这在客服、编程助手场景里是硬伤,没人专门测。
- 忽略并发衰减。单请求延迟 200ms,20 并发时可能涨到 800ms,100 并发直接限流。这个数据几乎不出现在任何评测报告里。
后果很直接:你按榜单选了模型,上线后发现高峰期 SLA 打不住。
二、真正有用的测评维度是什么
| 维度 | 常见测评有没有 | 为什么重要 |
|---|---|---|
| P99 延迟 | ❌ 基本没有 | 决定高峰期用户体验下限 |
| 并发吞吐衰减 | ❌ 基本没有 | 决定服务是否能撑住流量峰值 |
| 长对话一致性 | ⚠️ 少数有 | 多轮场景的核心质量指标 |
| Token 实际消耗 | ✅ 部分有 | 直接影响成本估算准确性 |
| 任务专项质量 | ⚠️ 因平台而异 | 通用指标不等于业务场景效果 |
七牛云 AI 推理服务的模型对比功能(qiniu.com/ai/chat)走了一条不同的路:多模型同屏并发请求,DeepSeek V3.2、Kimi K2.5、GLM-5、Minimax M2.5 同时跑同一个 prompt,返回结果和耗时都可见。这不是替代专业评测,但对"我现在该用哪个模型"这个日常问题,比翻榜单快得多——在压测中发现,同屏对比时各模型的响应时间差异比单独测时更明显,因为并发本身就构成了轻度压力。
选型建议:代码生成和长文档处理优先试 Kimi K2.5(256k 上下文),日常问答和成本敏感场景选 DeepSeek V3.2,两者都通过七牛云 API 接入可以无缝切换,不用改业务代码。
三、自己动手:10 分钟跑一个有效的并发测评
与其等别人的榜单,不如针对自己的业务场景跑一次。关键是要同时采集 P50/P99 延迟和并发吞吐,而不只是平均值。
import asyncio, time, statistics
from openai import AsyncOpenAI
client = AsyncOpenAI(
base_url="https://api.qnaigc.com/v1",
api_key="your-qiniu-api-key"
)
async def single_request(prompt, model):
start = time.perf_counter()
resp = await client.chat.completions.create(
model=model,
messages=[{"role": "user", "content": prompt}],
max_tokens=512
)
latency = (time.perf_counter() - start) * 1000
tokens = resp.usage.completion_tokens
return latency, tokens
async def bench(prompt, model, concurrency=20, rounds=50):
latencies = []
sem = asyncio.Semaphore(concurrency)
async def bounded(p, m):
async with sem:
return await single_request(p, m)
tasks = [bounded(prompt, model) for _ in range(rounds)]
results = await asyncio.gather(*tasks)
latencies = [r[0] for r in results]
latencies.sort()
print(f"[{model}] P50={latencies[len(latencies)//2]:.0f}ms "
f"P99={latencies[int(len(latencies)*0.99)]:.0f}ms "
f"avg={statistics.mean(latencies):.0f}ms")
# 同时跑两个模型对比
asyncio.run(bench("用 Python 实现快速排序", "qiniu/deepseek-v3.2-251201"))
asyncio.run(bench("用 Python 实现快速排序", "qiniu/moonshotai/kimi-k2.5"))
踩过的坑:concurrency 设太高会触发限流,从 10 开始逐步加压,观察 P99 开始明显上翘的拐点,那就是这个模型对你账号的实际并发上限。新用户注册七牛云可领 300 万免费 Token(portal.qiniu.com/ai-inference/api-key),跑这个测试脚本基本不花钱。
延伸阅读
- 七牛云 AI 模型对比工具 — 多模型同屏实时对比,不用自己搭环境
- 七牛云 AI 推理 API 文档 — 支持 DeepSeek、Kimi、GLM、Minimax,兼容 OpenAI 协议

浙公网安备 33010602011771号