摘要:
目录QwQ优势(王爆 DeepSeek R1蒸馏模型组。) 模型评测。 QwQ 32B VS DeepSeek R1 从以下维度评测 问答 翻译 角色扮演 长文本编写 数学 编程 科研 逻辑推理 各方面指标略低于R1 QwQ优势(王爆 DeepSeek R1蒸馏模型组。) 幻觉不如 DeepSeek 阅读全文
posted @ 2025-11-05 16:44
向着朝阳
阅读(25)
评论(0)
推荐(0)
摘要:
目录背景和价值一、通义千问(Qwen)模型的分类体系1. Qwen(主系列) —— 通用大语言模型2. QWQ(推理专家系列) —— 专注数学与代码3. Qwen-Audio / Qwen-VL / Qwen2-VL —— 多模态系列4. Qwen-Max / Qwen-Plus / Qwen-Tu 阅读全文
posted @ 2025-11-05 16:28
向着朝阳
阅读(490)
评论(0)
推荐(0)
摘要:
目录背景和价值一、推理型智能体(绑定reasoning模型)二、基础型智能体(绑定basic模型)三、设计逻辑总结参考资料 背景和价值 以下是 deer-flow 的大模型配置如下链接 https://github.com/bytedance/deer-flow/blob/main/docs/con 阅读全文
posted @ 2025-11-05 16:16
向着朝阳
阅读(43)
评论(0)
推荐(0)
摘要:
目录概念准确率精确率召回率F1基准测试MLLU 综合知识评测HellaSwag详解:常识推理HumanEval详解:代码生成准确度评估GSM8K详解:数学推理TruthfulQA基准详解MT-Bench详解:对话能力中文基准:C-Eval和SuperCLUE测试评估的挑战:基准过拟合评估未来评测趋势 阅读全文
posted @ 2025-11-05 10:25
向着朝阳
阅读(100)
评论(0)
推荐(0)

浙公网安备 33010602011771号