智能化-技术体系

------------------------------------------------------------------------------------------

AI应用层技术详解 RAG/搜索增强、Agent智能体、prompt提示词工程、COT思维链、workflow工作流编排、NL2Sql

你希望我详细拆解 AI 应用层的核心技术，包括 RAG（检索增强生成）、Agent 智能体、Prompt 提示词工程、CoT（思维链）、Workflow 工作流编排和 NL2SQL 这六大关键方向，我会从定义、核心价值、实现逻辑、典型场景四个维度逐一讲清楚，让你理解这些技术的本质和落地方式。

一、RAG（Retrieval-Augmented Generation）检索增强生成

1. 核心定义

RAG 是解决大模型 “知识过期、无私有数据、易胡说” 的核心技术，核心逻辑是：先从外部知识库检索与用户问题相关的上下文，再把 “问题 + 检索到的上下文” 一起发给大模型生成答案，让答案有依据、不跑偏、能复用私有 / 实时数据。

2. 核心价值

无需重新训练大模型，低成本更新知识（对比微调）；
解决大模型 “幻觉” 问题，答案可溯源、可验证；
支持私有数据 / 实时数据（如企业文档、最新新闻、业务数据库）；
降低对大模型上下文窗口的依赖（长文本先分块检索，只传相关内容）。

3. 核心实现流程（经典五步）

用户提问

问题向量化（Embedding）

向量数据库检索相关文档

拼接「问题+检索到的上下文+提示词」

大模型生成答案

返回带溯源的答案

关键环节：

文档预处理：加载（PDF/Word/ 数据库）→ 分块（按语义 / 长度）→ 向量化 → 存入向量库（Chroma/FAISS/Pinecone）；
检索策略：单轮检索→多轮检索 / 混合检索（关键词 + 语义）→ 重排（提升相关性）；
提示词设计：明确要求模型 “仅基于提供的上下文回答，超出范围说明无相关信息”。

4. 典型场景

企业知识库问答（如产品手册、内部文档、法规条文）；
智能客服（基于用户历史对话 + 业务知识库回答）；
新闻 / 论文问答（基于最新文本生成答案）。

二、Agent 智能体

1. 核心定义

Agent 是具备自主决策、工具调用、多步骤推理、环境交互能力的 AI 系统，核心是让 AI 从 “被动回答” 升级为 “主动解决问题”—— 能理解目标、拆解步骤、选择工具、执行操作、验证结果、修正错误。

2. 核心价值

解决 “单轮问答无法完成的复杂任务”（如 “帮我分析近 3 个月的销售数据，生成可视化报表并发送给销售总监”）；
打通 AI 与外部系统的闭环（调用 API、操作数据库、运行代码、联网搜索）；
适配动态场景（无需预设流程，AI 自主决策下一步动作）。

3. 核心实现逻辑

用户目标

Agent再次思考：是否需要继续调用工具/是否完成目标

需要工具？

选择合适的工具（如计算器/搜索引擎/SQL执行器）

直接生成答案

调用工具获取结果

目标完成？

关键组件：

核心大脑：大模型（负责推理、决策、调用工具）；
工具集：内置 / 自定义工具（搜索引擎、计算器、代码解释器、API、NL2SQL、文件操作等）；
记忆模块：记住历史操作和中间结果（短期记忆 / 长期记忆）；
执行器：负责调用工具并返回结果。

4. 典型场景

智能数据分析（自然语言提需求→AI 生成 SQL→查数据库→计算→可视化→总结）；
自动化办公（写邮件→查日历→安排会议→发送邀请→生成会议纪要）；
多工具协同（联网查天气→查机票→计算预算→推荐行程）。

三、Prompt 提示词工程

1. 核心定义

Prompt 工程是通过精准设计输入文本，引导大模型输出符合预期的结果，核心是 “用人类语言告诉 AI 「角色、任务、约束、示例」”，最大化发挥大模型能力，无需修改模型本身。

2. 核心价值

零代码 / 低成本优化模型输出（对比微调）；
规范模型输出格式（如 JSON、表格、SQL）；
约束模型行为（如禁止胡说、限定语气、指定语言）；
提升复杂任务的推理能力（结合 CoT、Few-shot 等技巧）。

3. 核心设计原则与技巧

表格

技巧类型	核心逻辑	示例
角色设定	给模型明确身份，降低歧义	“你是一名资深的 MySQL 数据库工程师，擅长将自然语言转换为高效的 SQL 语句”
任务描述	清晰、具体、可量化	“把用户的需求转换为 SQL，要求包含 WHERE 条件，避免 SELECT *，只返回 SQL 语句”
约束条件	限定输出范围、格式、规则	“仅使用提供的表结构（user 表：id, name, age），禁止使用其他表”
Few-shot	提供示例，让模型模仿	“示例 1：需求‘查所有 20 岁以上的用户’→ SQL：SELECT id,name FROM user WHERE age>20”
CoT（思维链）	引导模型分步推理	“请先分析需求需要查哪些表，再确定筛选条件，最后生成 SQL，并解释每一步”
输出格式指定	强制结构化输出，便于解析	“输出格式为 JSON：{"sql": "xxx", "explain": "xxx"}”

4. 典型场景

所有 LLM 应用的基础（RAG/Agent/NL2SQL 都依赖优质 Prompt）；
文本格式化（如把非结构化文本转 JSON）；
指令微调的 Prompt 模板设计。

四、CoT（Chain of Thought）思维链

1. 核心定义

CoT 是一种提示词技巧，核心是让大模型 “说出来” 推理过程，而不是直接给出答案 —— 通过引导模型分步拆解问题、分析逻辑、验证结果，提升复杂任务的准确率（尤其数学计算、逻辑推理、多步骤任务）。

2. 核心价值

解决大模型 “直接跳结论” 导致的错误（如复杂数学题、多条件逻辑题）；
提升模型的可解释性（知道答案是怎么来的）；
适配 Agent 的 “分步决策” 场景（每一步推理对应一次工具调用）。

3. 两种实现方式

Few-shot CoT：在 Prompt 中提供 “问题 + 分步推理 + 答案” 的示例，让模型模仿；

示例：

plaintext
 
 

问题：小明有5个苹果，小红给了他3个，他又分给小刚2个，现在小明有几个苹果？
推理步骤：
1. 初始苹果数：5个
2. 小红给了3个后：5+3=8个
3. 分给小刚2个后：8-2=6个
答案：6个

问题：仓库有100箱货物，上午运走25箱，下午运来18箱，现在仓库有多少箱？
推理步骤：
1. 初始货物数：100箱
2. 上午运走后：100-25=75箱
3. 下午运来后：75+18=93箱
答案：93箱

 

Zero-shot CoT：无需示例，仅在 Prompt 末尾加 “让我们一步步思考”/“请先分析问题，再给出答案”，引导模型自动推理。

4. 典型场景

数学计算、逻辑推理；
Agent 的决策过程（如 “先判断需要查哪个表，再生成 SQL，最后验证 SQL 是否正确”）；
复杂 NL2SQL（多表关联、嵌套查询）。

五、Workflow 工作流编排

1. 核心定义

Workflow 是将 AI 任务拆解为标准化、可复用、可监控的步骤序列，核心是 “把零散的组件（LLM/RAG/Agent/ 工具）按业务逻辑串联起来”，支持分支、循环、条件判断、异常处理，解决 “复杂任务无固定流程” 的问题。

2. 核心价值

降低复杂 AI 应用的开发成本（可视化 / 声明式编排，无需手写大量逻辑）；
提升应用的稳定性（标准化步骤、异常重试、日志监控）；
适配业务流程的动态调整（如新增步骤、修改分支条件）。

3. 核心实现方式

低代码编排：通过可视化工具（如 LangGraph、Airflow、Flowise）拖拽组件，配置步骤、条件、参数；

代码式编排：用 LangChain 的 LCEL、LangGraph 编写流程（更灵活）；

示例逻辑（LangGraph 实现简单工作流）：

python
 
运行
 
 
 
 

# 核心逻辑：用户提问→判断是否需要检索→RAG/直接回答→判断答案是否合规→返回结果
from langgraph.graph import StateGraph, END

def check_retrieval_need(state):
    # 判断是否需要检索（如问题包含“公司2025年营收”则需要）
    if "2025年营收" in state["question"]:
        return "retrieve"
    return "direct_answer"

def rag_answer(state):
    # RAG回答逻辑
    return {"answer": "基于检索的答案..."}

def direct_answer(state):
    # 直接回答逻辑
    return {"answer": "直接生成的答案..."}

def check_answer(state):
    # 检查答案是否合规
    if "违规内容" in state["answer"]:
        return "reject"
    return "approve"

# 构建工作流
graph = StateGraph(state_schema=dict)
graph.add_node("check_need", check_retrieval_need)
graph.add_node("rag", rag_answer)
graph.add_node("direct", direct_answer)
graph.add_node("check", check_answer)

# 添加边（流程走向）
graph.add_edge("check_need", "rag", condition=lambda x: x == "retrieve")
graph.add_edge("check_need", "direct", condition=lambda x: x == "direct_answer")
graph.add_edge("rag", "check")
graph.add_edge("direct", "check")
graph.add_edge("check", END, condition=lambda x: x == "approve")
graph.add_edge("check", END, condition=lambda x: x == "reject")

 

4. 典型场景

企业级 AI 应用（如智能客服全流程：咨询→意图识别→RAG/Agent→答案审核→发送→记录）；
自动化数据分析（数据提取→清洗→分析→可视化→报告生成→邮件发送）；
多模型协同任务（文本生成→翻译→校对→格式转换）。

六、NL2SQL（Natural Language to SQL）

1. 核心定义

NL2SQL 是将自然语言描述的查询需求转换为可执行的 SQL 语句的技术，核心是让不懂 SQL 的用户通过日常语言查询数据库。

2. 核心价值

降低数据库使用门槛（业务人员无需懂 SQL 即可查数据）；
提升数据查询效率（无需开发 / 运维写 SQL，即时响应）；
适配企业 BI 场景（自然语言生成报表、分析数据）。

3. 核心实现逻辑

是

否

用户自然语言需求

表结构/元数据加载（表名、字段、类型、关联关系）

Prompt构建（需求+表结构+CoT示例+输出格式）

大模型生成SQL

SQL校验（语法、权限、性能、安全）

校验通过？

执行SQL并返回结果

模型修正SQL/提示用户调整需求

关键优化点：

元数据注入：必须把表结构、字段注释、关联关系传给模型，否则生成的 SQL 大概率错误；
SQL 校验：防止语法错误、越权查询、全表扫描（如禁止 SELECT *）、注入攻击；
Few-shot + CoT：提供 “自然语言→SQL→解释” 的示例，提升复杂 SQL（多表关联、分组、聚合）的准确率。

4. 典型场景

业务人员数据查询（如 “查 2025 年 1 月北京地区的销售订单数”）；
智能 BI 工具（自然语言生成报表、分析趋势）；
Agent 智能体的子任务（Agent 拆解需求后，调用 NL2SQL 生成 SQL 查数据）。

总结

基础层：Prompt 提示词工程是所有 AI 应用的 “入口”，CoT 是提升复杂任务准确率的核心技巧，二者是 RAG/Agent/NL2SQL 的基础；
核心能力层：RAG 解决 “知识来源” 问题，Agent 解决 “自主决策 / 工具调用” 问题，NL2SQL 是 Agent 最常用的工具之一；
工程化层：Workflow 工作流编排是将上述技术串联为 “可落地、可监控、可复用” 的企业级应用的关键，是从 “demo” 到 “生产” 的必经之路。

这些技术并非孤立存在，实际落地中通常是 “Prompt+CoT” 驱动，RAG/NL2SQL 作为 Agent 的工具，最终通过 Workflow 编排成完整的业务流程。

------------------------------------------------------------------------------------------

LangChain 是一个用于构建大语言模型（LLM）应用的开源开发框架，核心是把 LLM、外部数据、工具与业务流程标准化串联，快速开发出具备上下文感知、数据检索、工具调用能力的复杂 AI 应用LangChain。

一、核心定位与价值

不是大模型本身，而是LLM 应用的 “中间件 / 编排层”。
解决 LLM 三大痛点：无实时 / 私有数据、无工具操作能力、难做多步骤复杂任务。
提供模块化、可组合、可扩展的组件，像搭积木一样快速构建应用。
支持 Python / JavaScript 双栈，生态完善LangChain。

二、核心组件（最常用）

1. Model I/O（模型层）

LLM Wrappers：统一接口封装 OpenAI、Anthropic、Gemini、LLaMA、ChatGLM 等，一键切换模型。
Prompt Templates：提示词模板，复用与动态填充变量。
Output Parsers：把模型输出解析为结构化数据（JSON、列表、SQL 等）。

2. Chains（链式调用，核心）

把多个组件按顺序 / 条件串成可复用流程。
常用内置链：
- LLMChain：最基础的 “提示词 + 模型调用”。
- SequentialChain：多步骤顺序执行。
- RetrievalQA / RAGChain：检索增强生成（RAG），先查知识库再生成。
- SQLDatabaseChain：自然语言转 SQL、查库、返回自然语言答案。
LCEL（LangChain Expression Language）：声明式语法，灵活组合组件，支持流式、并行、异常处理。

3. Retrieval（数据检索，RAG 核心）

Document Loaders：加载 PDF、Word、Markdown、数据库、网页、API 等数据。
Text Splitters：长文本分块，适配模型上下文窗口。
Embeddings：文本转向量（OpenAI、BGE、文心等）。
Vector Stores：向量数据库（Chroma、FAISS、Pinecone、Milvus 等），做语义检索。
Retrievers：从向量库 / 文档中检索相关上下文。

4. Memory（记忆管理）

让 LLM 记住对话历史与上下文LangChain。
常用：
- ConversationBufferMemory：缓存完整对话。
- ConversationSummaryMemory：对话摘要，节省 tokens。
- VectorStoreRetrieverMemory：长期记忆（向量库）。

5. Agents & Tools（智能代理）

Agent：让 LLM 自主决策、动态调用工具、完成多步骤复杂任务。
Tools：内置 / 自定义工具（搜索引擎、计算器、代码解释器、API、数据库、文件操作等）。
典型场景：自然语言查数据库、联网搜索、写代码并运行、调用第三方服务。

三、典型应用场景

企业知识库问答 / 智能客服（RAG + 记忆）。
自然语言数据分析 / SQL 生成。
文档处理（总结、翻译、信息抽取、问答）。
聊天机器人 / 虚拟助手（多轮对话 + 工具调用）。
代码助手（生成、解释、调试、运行）。
自动化工作流（邮件、报表、审批、数据同步）。

四、生态工具

LangSmith：调试、测试、评估、监控 LLM 应用Langchain。
LangServe：把 Chain/Agent 快速部署为 REST APILangchain。
LangGraph：构建复杂、循环、状态 ful 的工作流与智能体。
LangChain Templates：开箱即用的应用模板（RAG、SQL Agent、Chatbot 等）Langchain。

五、一句话总结

LangChain = LLM + 数据 + 工具 + 流程编排，是当前开发 LLM 应用最主流、最成熟的框架之一。

------------------------------------------------------------------------------------------

推理支撑层技术详解大模型推理部署平台(vLLM、MindIE、Ollama)大模型技术框架(LangChain、AutoGen、AgentSkilb)大模型应用平台(Dify、Langflow)

我给你用最清晰、最工程化、能直接做架构图的方式，把 AI 推理支撑层 = 推理部署平台 + 大模型框架 + 应用平台三层讲透。你看完就能直接用来画架构、做方案、选型。

一、整体定位（一句话记住）

推理部署平台：管模型怎么跑、快不快、稳不稳（GPU / 显存 / 并发 / 吞吐量）
大模型技术框架：管怎么用模型做功能（RAG/Agent/ 工作流 / 调用）
大模型应用平台：管怎么零代码 / 低代码快速上线（可视化、交付、运维）

它们是从下往上支撑的关系：模型 → 推理部署 → 技术框架 → 应用平台 → 最终用户

二、大模型推理部署平台

负责：模型加载、推理加速、多并发、显存优化、服务化你可以把它理解为 LLM 的 Web 容器 + 高性能引擎。

1. vLLM（最主流开源推理引擎）

定位：高性能 LLM 推理服务器
核心技术：PagedAttention 显存分页管理
优势
- 吞吐量极高、并发强
- 支持几乎所有开源模型（Llama、Qwen、GLM 等）
- 支持流式输出、OpenAI 兼容接口
适用场景：生产环境、高并发、私有化部署

2. MindIE（华为昇腾芯片推理框架）

定位：华为生态下的大模型推理服务平台
特点
- 深度适配昇腾 NPU
- 模型压缩、加速、服务编排
适用场景：国产化、政务、国企、昇腾环境

3. Ollama（本地开发神器）

定位：本地一键跑大模型，极简部署
优势
- 一条命令启动模型
- 自动下载、管理模型
- 提供 API
适用场景：开发调试、个人电脑、快速验证

小结

生产用：vLLM
国产化 NPU：MindIE
本地开发：Ollama

三、大模型技术框架（开发框架）

负责：把模型变成应用（RAG、Agent、多智能体、工作流）是代码层的核心脚手架。

1. LangChain（最通用、最成熟）

定位：LLM 应用开发标准框架
核心能力
- Prompt 模板
- RAG 全链路（加载、切分、向量库、检索）
- Chains、LCEL
- Memory 记忆
- Agent + Tools
- 对接几乎所有模型 / 向量库
地位：事实上的标准

2. AutoGen（多智能体框架）

定位：微软出品，多 Agent 协作框架
特点
- 多个智能体互相聊天、协作完成任务
- 支持人工介入
- 适合复杂任务：代码、数据分析、自动化
和 LangChain 区别：
- LangChain 偏流程
- AutoGen 偏多角色对话协作

3. AgentSkilb（企业级 Agent 开发框架）

定位：国内企业级智能体框架
特点
- 面向生产、稳定、可监控
- 工具化、可插拔
- 适合政企私有化
适用：工业级、安全合规、可管控的 Agent 系统

小结

通用开发：LangChain
多智能体协作：AutoGen
企业级生产 Agent：AgentSkilb

四、大模型应用平台（低代码平台）

负责：可视化编排、快速上线、非开发者也能用不用写代码，拖拽就能做 RAG/Agent 应用。

1. Dify（国内最流行）

定位：一站式 LLM 应用开发平台
能力
- 可视化 Prompt 编辑
- RAG 知识库上传 / 解析 / 检索
- 工作流编排
- 发布为 API/Web 表单 / 客服
优势
- 开箱即用
- 国产友好
- 适合企业快速落地

2. Langflow（基于 LangChain 可视化）

定位：LangChain 官方风格的拖拽式编排工具
特点
- 完全对应 LangChain 组件
- 节点式编排：LLM、Prompt、RAG、Agent、Tools
适合：喜欢 LangChain、想可视化搭建的开发者

小结

企业落地、简单好用：Dify
开发者、偏技术编排：Langflow

五、三层架构总图（最关键）

底层：推理部署层

vLLM / Ollama / MindIE→ 提供高速、稳定、可并发的模型服务

中层：开发框架层

LangChain / AutoGen / AgentSkilb→ 代码开发 RAG、Agent、工作流

上层：应用平台层

Dify / Langflow→ 可视化搭建、发布、运维

真实生产中最常见组合

Ollama + LangChain + Dify（本地开发）
vLLM + LangChain + Dify（正式上线）
MindIE + AgentSkilb + Dify（国产化环境）

------------------------------------------------------------------------------------------

开源模型（Llama、Qwen、GLM 等都有哪些

下面按国际主流 + 国产头部两大阵营，把 Llama、Qwen、GLM 等主流开源大模型一次性讲全，包含最新版本、参数、许可、核心特点、适用场景，方便你选型与对比。

一、国际主流开源模型（全球生态标杆）

1. Llama 系列（Meta）

定位：开源 LLM 事实标准、全球生态最完善
最新版本：Llama 4（2025）
- 架构：MoE 混合专家（总参～1T，激活约 170B）
- 上下文：100 万 + token（Scout 版本）
- 能力：原生多模态（文 / 图 / 视频）、超长文档、推理强
经典版本：Llama 2、Llama 3（8B/70B）
许可：商用友好（需申请）
优势：工具链最成熟、推理 / 微调框架全覆盖、社区问题解决最快
适用：通用对话、RAG、Agent、私有化部署、企业级基座

2. Mistral 系列（Mistral AI）

定位：欧洲最强开源、小参高效、推理极快
代表：Mistral-7B、Mixtral-8x7B（MoE）、Mistral-Large
特点：小参高性能、上下文 32K+、速度快、适合边缘 / 本地
许可：Apache 2.0（完全开源商用）
适用：轻量服务、API 网关、本地推理、低资源场景

3. Falcon 系列（TII）

定位：中东开源标杆、长上下文、低成本
代表：Falcon-7B/40B/180B
特点：32K+ 上下文、支持多语言、推理速度快
许可：Apache 2.0
适用：通用对话、知识库、低成本私有化

二、国产头部开源模型（中文 / 工程化领先）

1. Qwen 千问系列（阿里通义）

定位：中文最强开源、多模态 / 长上下文 / 推理顶尖
最新旗舰：Qwen 3.5 / Qwen3-Max-Thinking（2026）
- 参数：397B（MoE，激活 17B）、235B、72B、14B、7B、1.8B
- 上下文：1M+ token、原生长文本
- 能力：中文理解 / 生成、复杂推理、代码、多模态、Agent
专项：Qwen3-Coder-Next（代码专用，3B 激活，性能对标闭源）
许可：Apache 2.0（完全开源商用）
优势：中文最优、超长上下文、多模态强、硬件优化好
适用：中文知识库、企业客服、复杂推理、Agent、多模态应用

2. GLM 系列（智谱 AI）

定位：中文对话 / 推理 / 编程顶尖、工程化极强
最新旗舰：GLM-5（2026.2）
- 架构：MoE、KV Cache 优化、推理速度快
- 能力：编程（对标 Claude Opus）、长程 Agent、代码执行、数学推理
经典：GLM-4.7（Thinking）、GLM-4、ChatGLM3/6B
许可：开源免费、商用友好
优势：中文强、推理 / 代码 / Agent 顶尖、国产芯片适配好
适用：编程开发、数据分析、长程 Agent、私有化部署、政务 / 企业

3. DeepSeek 系列（深度求索）

定位：数学 / 代码 / 推理天花板、性价比之王
代表：DeepSeek-V3.2、DeepSeek-R1、DeepSeek-Coder
参数：671B、67B、33B、7B
特点：数学（AIME ~92%）、代码（LiveCodeBench ~86%）、推理极强、MIT 许可
许可：MIT（最宽松，无商用限制）
适用：数学 / 科学计算、代码生成、数据分析、本地部署、高性价比场景

4. MiniMax M2.5（MiniMax）

定位：Agent 原生、编程强、消费级显卡可跑
特点：Agent 能力突出、SWE-bench ~80.2%、支持本地部署
许可：开源商用
适用：Agent 开发、自动化办公、私有化、低成本大规模部署

5. Kimi K2.5（月之暗面 Moonshot AI）

定位：思考链（Thinking）极强、代码 / 复杂任务顶尖
特点：推理爆炸、代码接近 GPT-4、多模态、MIT 许可
适用：复杂推理、代码生成、智能体集群、高要求对话

6. 百川 Baichuan 系列（百川智能）

定位：早期中文开源标杆、轻量高效
代表：Baichuan-7B/13B、Baichuan2
特点：中文友好、轻量、适合本地 / 边缘
适用：轻量对话、知识库、低成本私有化

三、其他值得关注的开源模型

1. BLOOM / BLOOMZ（BigScience）

多语言：支持 46 种语言、开源社区共建
适用：多语言场景、学术研究

2. Yi 系列（01.AI）

特点：34B/6B、中文强、长上下文、推理优秀
适用：中文对话、RAG、企业应用

3. StarCoder / CodeLlama

定位：代码专用开源模型
适用：代码生成、补全、调试、编程助手

四、核心对比速览（2026 最新）

表格

模型家族	最新旗舰	许可	中文能力	推理 / 代码	上下文	适用场景
Llama	Llama 4	Meta 商用	中	强	1M+	全球通用、企业基座
Qwen	Qwen 3.5	Apache 2.0	极强	极强	1M+	中文全场景、Agent、多模态
GLM	GLM-5	开源免费	极强	极强	128K+	编程、Agent、工程化
DeepSeek	V3.2	MIT	强	极强	128K+	数学、代码、高性价比
Mistral	Large	Apache 2.0	中	强	128K+	轻量、本地、速度优先
MiniMax	M2.5	商用	强	强	128K+	Agent、消费级部署
Kimi	K2.5	MIT	强	极强	128K+	复杂推理、代码

五、选型一句话建议

中文场景首选：Qwen 3.5 / GLM-5
代码 / 数学 / 推理首选：DeepSeek-V3.2 / GLM-5 / Kimi K2.5
本地 / 消费级显卡：Qwen-14B/7B、GLM-4.7-Flash、Mistral-7B
全球生态 / 兼容性：Llama 4 / Llama 3
最宽松许可（无商用限制）：DeepSeek（MIT）、Kimi（MIT）、Mistral（Apache 2.0）

------------------------------------------------------------------------------------------

向量化 / 召回 / 重排、图像 OCR 版面、基础大模型、行业大模型，一次性讲透。

模型层整体定位

模型层 = 表示模型 + 感知模型 + 大语言模型 + 行业专用模型

表示模型：把文本 / 图像变成向量
感知模型：看懂文档、图片、表格
大语言模型：理解、推理、生成
行业大模型：垂直领域专精

一、表示学习模型（向量、召回、排序）

负责：文本→向量、检索、相关性打分

RAG 最核心的模型层。

1. 向量模型（Embedding）

把句子 / 段落变成固定长度向量，用于语义检索。

BGE-M3（当前最主流通用）

机构：BAAI 智源
特点：多语言、超长上下文、统一向量空间
能力：
- 支持短文本 / 长文档
- 支持中英文混合
- 检索精度极高
用途：RAG 召回主干

其他常用向量

bge-base、bge-large
text-embedding-ada-002（OpenAI）
jina-embeddings-v2（长上下文强）
Qwen-Embedding、GLM-Embedding（国产）

2. 召回模型（Retrieval）

从海量库里快速捞出候选，不追求精准，只求快 + 全。

常用方式：

向量召回（ you have: bge-m3 ）
关键词召回（BM25）
混合召回 = 向量 + 关键词（最稳）

3. 排序模型（Reranker）

对候选结果做精细相关性打分，是 RAG 精度提升关键。

bge-reranker-v2-m3（最强开源重排之一）

作用：给召回的段落重新排序
输入：query + 文本
输出：0~1 相关性分数
效果：直接决定 RAG 答案准不准

其他常用

bge-reranker-large
Cohere Rerank
Jina-Reranker

二、感知类模型（图像 / OCR / 版面分析）

负责：把图片、扫描件、PDF 变成可检索文本

企业文档数字化必备。

1. OCR 模型

把图片里的文字抠出来。

常用：

PaddleOCR（百度飞浆，国产最强、开源、多语言）
EasyOCR
Tesseract
阿里 / 腾讯云 OCR

2. 版面分析模型（Layout Analysis）

识别：标题、段落、表格、图片、页眉页脚、公式

常用：

LayoutLMv3（微软）
PaddleLayout（百度）
UniDoc（文档通用）

3. 表格识别（Table Recognition）

把图片表格 → Excel/HTML/ 结构化数据。

常用：

TableTransformer
PaddleTable
StructEqTable（表格 + 公式）

4. 图像识别 / 多模态模型

看图理解内容。

常用：

Qwen-VL
GLM-4V
Llama 3.2 Vision
MiniCPM-V

三、基础大模型（基座 LLM）

通用理解、推理、生成、对话、工具调用。

你要的这几个我精炼成选型级总结：

1. Qwen（阿里通义千问）

版本：Qwen 3 / 3.5 / Qwen-MoE
优势：中文极强、长上下文、多模态、推理强
适合：RAG、Agent、企业通用、客服、知识库

2. DeepSeek（深度求索）

版本：DeepSeek-V3 / V3.2
优势：代码、数学、推理顶尖
许可：MIT（最宽松）
适合：NL2SQL、代码助手、数据分析、Agent

3. ChatGLM / GLM（智谱）

版本：GLM-4 / GLM-4.7 / GLM-5
优势：对话自然、工程化强、国产芯片适配好
适合：政企私有化、办公助手、长文本

4. 其他国际基座

Llama 3 / 4（Meta）
Mistral
Phi（微软小模型）

四、行业大模型（垂直领域专用）

在通用模型基础上微调行业数据 + 行业知识。

你提到的法律大模型我重点讲：

1. 法律大模型

ChatLaw

机构：北大 / 智谱
定位：法律问答、法条检索、案件分析

LawGPT

开源法律 LLM
功能：法律咨询、合同审查、法律文书生成

LexPro

法律专业级
面向律所、法务、法院场景

通用能力

法条检索
合同审查、风险点提取
法律文书生成
案件预测、类案匹配

2. 其他常见行业大模型（你方案里可直接写）

医疗大模型：MedGPT、HuatuoGPT
教育大模型：教育对话、题库、批改
金融大模型：研报分析、合规、风控
政企 / 政务大模型：公文、政策、脱敏、合规
代码大模型：CodeLlama、Qwen-Coder、DeepSeek-Coder

五、模型层整体架构（可直接复制进方案）

plaintext

模型层
├─ 表示学习模型
│   ├─ 向量模型：bge-m3、bge-large、Qwen-Embedding
│   └─ 排序模型：bge-reranker-v2-m3
├─ 感知模型
│   ├─ OCR：PaddleOCR
│   ├─ 版面分析：LayoutLMv3、PaddleLayout
│   ├─ 表格识别
│   └─ 多模态：Qwen-VL、GLM-4V
├─ 基础大模型
│   ├─ Qwen 系列
│   ├─ DeepSeek 系列
│   ├─ GLM / ChatGLM 系列
│   └─ Llama、Mistral
└─ 行业大模型
    ├─ 法律：ChatLaw、LawGPT、LexPro
    ├─ 医疗
    ├─ 金融
    └─ 代码/政企/教育

如果你需要，我可以立刻帮你生成：

可插入 PPT 的 Mermaid 模型层架构图
一份正式方案版《模型层技术设计》文档

------------------------------------------------------------------------------------------

------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

posted @ 2026-02-27 17:35 hanease 阅读(30) 评论(0) 收藏举报

刷新页面返回顶部