智能化-技术体系

------------------------------------------------------------------------------------------

AI应用层技术详解 RAG/搜索增强、Agent智能体、prompt提示词工程、COT思维链、workflow工作流编排、NL2Sql
你希望我详细拆解 AI 应用层的核心技术,包括 RAG(检索增强生成)、Agent 智能体、Prompt 提示词工程、CoT(思维链)、Workflow 工作流编排和 NL2SQL 这六大关键方向,我会从定义、核心价值、实现逻辑、典型场景四个维度逐一讲清楚,让你理解这些技术的本质和落地方式。

一、RAG(Retrieval-Augmented Generation)检索增强生成

1. 核心定义

RAG 是解决大模型 “知识过期、无私有数据、易胡说” 的核心技术,核心逻辑是:先从外部知识库检索与用户问题相关的上下文,再把 “问题 + 检索到的上下文” 一起发给大模型生成答案,让答案有依据、不跑偏、能复用私有 / 实时数据。

2. 核心价值

  • 无需重新训练大模型,低成本更新知识(对比微调);
  • 解决大模型 “幻觉” 问题,答案可溯源、可验证;
  • 支持私有数据 / 实时数据(如企业文档、最新新闻、业务数据库);
  • 降低对大模型上下文窗口的依赖(长文本先分块检索,只传相关内容)。

3. 核心实现流程(经典五步)

 

image

 

 
 

用户提问

问题向量化(Embedding)

向量数据库检索相关文档

拼接「问题+检索到的上下文+提示词」

大模型生成答案

返回带溯源的答案

 
关键环节:
  • 文档预处理:加载(PDF/Word/ 数据库)→ 分块(按语义 / 长度)→ 向量化 → 存入向量库(Chroma/FAISS/Pinecone);
  • 检索策略:单轮检索→多轮检索 / 混合检索(关键词 + 语义)→ 重排(提升相关性);
  • 提示词设计:明确要求模型 “仅基于提供的上下文回答,超出范围说明无相关信息”。

4. 典型场景

  • 企业知识库问答(如产品手册、内部文档、法规条文);
  • 智能客服(基于用户历史对话 + 业务知识库回答);
  • 新闻 / 论文问答(基于最新文本生成答案)。

二、Agent 智能体

1. 核心定义

Agent 是具备自主决策、工具调用、多步骤推理、环境交互能力的 AI 系统,核心是让 AI 从 “被动回答” 升级为 “主动解决问题”—— 能理解目标、拆解步骤、选择工具、执行操作、验证结果、修正错误。

2. 核心价值

  • 解决 “单轮问答无法完成的复杂任务”(如 “帮我分析近 3 个月的销售数据,生成可视化报表并发送给销售总监”);
  • 打通 AI 与外部系统的闭环(调用 API、操作数据库、运行代码、联网搜索);
  • 适配动态场景(无需预设流程,AI 自主决策下一步动作)。

3. 核心实现逻辑

 

image

 

用户目标

Agent再次思考:是否需要继续调用工具/是否完成目标

需要工具?

选择合适的工具(如计算器/搜索引擎/SQL执行器)

直接生成答案

调用工具获取结果

目标完成?

 
关键组件:
  • 核心大脑:大模型(负责推理、决策、调用工具);
  • 工具集:内置 / 自定义工具(搜索引擎、计算器、代码解释器、API、NL2SQL、文件操作等);
  • 记忆模块:记住历史操作和中间结果(短期记忆 / 长期记忆);
  • 执行器:负责调用工具并返回结果。

4. 典型场景

  • 智能数据分析(自然语言提需求→AI 生成 SQL→查数据库→计算→可视化→总结);
  • 自动化办公(写邮件→查日历→安排会议→发送邀请→生成会议纪要);
  • 多工具协同(联网查天气→查机票→计算预算→推荐行程)。

三、Prompt 提示词工程

1. 核心定义

Prompt 工程是通过精准设计输入文本,引导大模型输出符合预期的结果,核心是 “用人类语言告诉 AI 「角色、任务、约束、示例」”,最大化发挥大模型能力,无需修改模型本身。

2. 核心价值

  • 零代码 / 低成本优化模型输出(对比微调);
  • 规范模型输出格式(如 JSON、表格、SQL);
  • 约束模型行为(如禁止胡说、限定语气、指定语言);
  • 提升复杂任务的推理能力(结合 CoT、Few-shot 等技巧)。

3. 核心设计原则与技巧

表格
 
技巧类型核心逻辑示例
角色设定 给模型明确身份,降低歧义 “你是一名资深的 MySQL 数据库工程师,擅长将自然语言转换为高效的 SQL 语句”
任务描述 清晰、具体、可量化 “把用户的需求转换为 SQL,要求包含 WHERE 条件,避免 SELECT *,只返回 SQL 语句”
约束条件 限定输出范围、格式、规则 “仅使用提供的表结构(user 表:id, name, age),禁止使用其他表”
Few-shot 提供示例,让模型模仿 “示例 1:需求‘查所有 20 岁以上的用户’→ SQL:SELECT id,name FROM user WHERE age>20”
CoT(思维链) 引导模型分步推理 “请先分析需求需要查哪些表,再确定筛选条件,最后生成 SQL,并解释每一步”
输出格式指定 强制结构化输出,便于解析 “输出格式为 JSON:{"sql": "xxx", "explain": "xxx"}”

4. 典型场景

  • 所有 LLM 应用的基础(RAG/Agent/NL2SQL 都依赖优质 Prompt);
  • 文本格式化(如把非结构化文本转 JSON);
  • 指令微调的 Prompt 模板设计。

四、CoT(Chain of Thought)思维链

1. 核心定义

CoT 是一种提示词技巧,核心是让大模型 “说出来” 推理过程,而不是直接给出答案 —— 通过引导模型分步拆解问题、分析逻辑、验证结果,提升复杂任务的准确率(尤其数学计算、逻辑推理、多步骤任务)。

2. 核心价值

  • 解决大模型 “直接跳结论” 导致的错误(如复杂数学题、多条件逻辑题);
  • 提升模型的可解释性(知道答案是怎么来的);
  • 适配 Agent 的 “分步决策” 场景(每一步推理对应一次工具调用)。

3. 两种实现方式

  • Few-shot CoT:在 Prompt 中提供 “问题 + 分步推理 + 答案” 的示例,让模型模仿;
     
    示例:
    plaintext
     
     
    问题:小明有5个苹果,小红给了他3个,他又分给小刚2个,现在小明有几个苹果?
    推理步骤:
    1. 初始苹果数:5个
    2. 小红给了3个后:5+3=8个
    3. 分给小刚2个后:8-2=6个
    答案:6个
    
    问题:仓库有100箱货物,上午运走25箱,下午运来18箱,现在仓库有多少箱?
    推理步骤:
    1. 初始货物数:100箱
    2. 上午运走后:100-25=75箱
    3. 下午运来后:75+18=93箱
    答案:93箱
    
     
     
  • Zero-shot CoT:无需示例,仅在 Prompt 末尾加 “让我们一步步思考”/“请先分析问题,再给出答案”,引导模型自动推理。

4. 典型场景

  • 数学计算、逻辑推理;
  • Agent 的决策过程(如 “先判断需要查哪个表,再生成 SQL,最后验证 SQL 是否正确”);
  • 复杂 NL2SQL(多表关联、嵌套查询)。

五、Workflow 工作流编排

1. 核心定义

Workflow 是将 AI 任务拆解为标准化、可复用、可监控的步骤序列,核心是 “把零散的组件(LLM/RAG/Agent/ 工具)按业务逻辑串联起来”,支持分支、循环、条件判断、异常处理,解决 “复杂任务无固定流程” 的问题。

2. 核心价值

  • 降低复杂 AI 应用的开发成本(可视化 / 声明式编排,无需手写大量逻辑);
  • 提升应用的稳定性(标准化步骤、异常重试、日志监控);
  • 适配业务流程的动态调整(如新增步骤、修改分支条件)。

3. 核心实现方式

  • 低代码编排:通过可视化工具(如 LangGraph、Airflow、Flowise)拖拽组件,配置步骤、条件、参数;
  • 代码式编排:用 LangChain 的 LCEL、LangGraph 编写流程(更灵活);
     
    示例逻辑(LangGraph 实现简单工作流):
    python
     
    运行
     
     
     
     
    # 核心逻辑:用户提问→判断是否需要检索→RAG/直接回答→判断答案是否合规→返回结果
    from langgraph.graph import StateGraph, END
    
    def check_retrieval_need(state):
        # 判断是否需要检索(如问题包含“公司2025年营收”则需要)
        if "2025年营收" in state["question"]:
            return "retrieve"
        return "direct_answer"
    
    def rag_answer(state):
        # RAG回答逻辑
        return {"answer": "基于检索的答案..."}
    
    def direct_answer(state):
        # 直接回答逻辑
        return {"answer": "直接生成的答案..."}
    
    def check_answer(state):
        # 检查答案是否合规
        if "违规内容" in state["answer"]:
            return "reject"
        return "approve"
    
    # 构建工作流
    graph = StateGraph(state_schema=dict)
    graph.add_node("check_need", check_retrieval_need)
    graph.add_node("rag", rag_answer)
    graph.add_node("direct", direct_answer)
    graph.add_node("check", check_answer)
    
    # 添加边(流程走向)
    graph.add_edge("check_need", "rag", condition=lambda x: x == "retrieve")
    graph.add_edge("check_need", "direct", condition=lambda x: x == "direct_answer")
    graph.add_edge("rag", "check")
    graph.add_edge("direct", "check")
    graph.add_edge("check", END, condition=lambda x: x == "approve")
    graph.add_edge("check", END, condition=lambda x: x == "reject")
    
     
     

4. 典型场景

  • 企业级 AI 应用(如智能客服全流程:咨询→意图识别→RAG/Agent→答案审核→发送→记录);
  • 自动化数据分析(数据提取→清洗→分析→可视化→报告生成→邮件发送);
  • 多模型协同任务(文本生成→翻译→校对→格式转换)。

六、NL2SQL(Natural Language to SQL)

1. 核心定义

NL2SQL 是将自然语言描述的查询需求转换为可执行的 SQL 语句的技术,核心是让不懂 SQL 的用户通过日常语言查询数据库。

2. 核心价值

  • 降低数据库使用门槛(业务人员无需懂 SQL 即可查数据);
  • 提升数据查询效率(无需开发 / 运维写 SQL,即时响应);
  • 适配企业 BI 场景(自然语言生成报表、分析数据)。

3. 核心实现逻辑

 
 
 
 
 

 

用户自然语言需求

表结构/元数据加载(表名、字段、类型、关联关系)

Prompt构建(需求+表结构+CoT示例+输出格式)

大模型生成SQL

SQL校验(语法、权限、性能、安全)

校验通过?

执行SQL并返回结果

模型修正SQL/提示用户调整需求

 
关键优化点:
  • 元数据注入:必须把表结构、字段注释、关联关系传给模型,否则生成的 SQL 大概率错误;
  • SQL 校验:防止语法错误、越权查询、全表扫描(如禁止 SELECT *)、注入攻击;
  • Few-shot + CoT:提供 “自然语言→SQL→解释” 的示例,提升复杂 SQL(多表关联、分组、聚合)的准确率。

4. 典型场景

  • 业务人员数据查询(如 “查 2025 年 1 月北京地区的销售订单数”);
  • 智能 BI 工具(自然语言生成报表、分析趋势);
  • Agent 智能体的子任务(Agent 拆解需求后,调用 NL2SQL 生成 SQL 查数据)。

总结

  1. 基础层:Prompt 提示词工程是所有 AI 应用的 “入口”,CoT 是提升复杂任务准确率的核心技巧,二者是 RAG/Agent/NL2SQL 的基础;
  2. 核心能力层:RAG 解决 “知识来源” 问题,Agent 解决 “自主决策 / 工具调用” 问题,NL2SQL 是 Agent 最常用的工具之一;
  3. 工程化层:Workflow 工作流编排是将上述技术串联为 “可落地、可监控、可复用” 的企业级应用的关键,是从 “demo” 到 “生产” 的必经之路。
这些技术并非孤立存在,实际落地中通常是 “Prompt+CoT” 驱动,RAG/NL2SQL 作为 Agent 的工具,最终通过 Workflow 编排成完整的业务流程。

------------------------------------------------------------------------------------------

LangChain 是一个用于构建大语言模型(LLM)应用的开源开发框架,核心是把 LLM、外部数据、工具与业务流程标准化串联,快速开发出具备上下文感知、数据检索、工具调用能力的复杂 AI 应用LangChain。

 

一、核心定位与价值

 
  • 不是大模型本身,而是LLM 应用的 “中间件 / 编排层”。
  • 解决 LLM 三大痛点:无实时 / 私有数据、无工具操作能力、难做多步骤复杂任务。
  • 提供模块化、可组合、可扩展的组件,像搭积木一样快速构建应用。
  • 支持 Python / JavaScript 双栈,生态完善LangChain。
 

二、核心组件(最常用)

 

1. Model I/O(模型层)

 
  • LLM Wrappers:统一接口封装 OpenAI、Anthropic、Gemini、LLaMA、ChatGLM 等,一键切换模型。
  • Prompt Templates:提示词模板,复用与动态填充变量。
  • Output Parsers:把模型输出解析为结构化数据(JSON、列表、SQL 等)。
 

2. Chains(链式调用,核心)

 
  • 把多个组件按顺序 / 条件串成可复用流程。
  • 常用内置链:
    • LLMChain:最基础的 “提示词 + 模型调用”。
    • SequentialChain:多步骤顺序执行。
    • RetrievalQA / RAGChain:检索增强生成(RAG),先查知识库再生成。
    • SQLDatabaseChain:自然语言转 SQL、查库、返回自然语言答案。
     
  • LCEL(LangChain Expression Language):声明式语法,灵活组合组件,支持流式、并行、异常处理。
 

3. Retrieval(数据检索,RAG 核心)

 
  • Document Loaders:加载 PDF、Word、Markdown、数据库、网页、API 等数据。
  • Text Splitters:长文本分块,适配模型上下文窗口。
  • Embeddings:文本转向量(OpenAI、BGE、文心等)。
  • Vector Stores:向量数据库(Chroma、FAISS、Pinecone、Milvus 等),做语义检索。
  • Retrievers:从向量库 / 文档中检索相关上下文。
 

4. Memory(记忆管理)

 
  • 让 LLM 记住对话历史与上下文LangChain。
  • 常用:
    • ConversationBufferMemory:缓存完整对话。
    • ConversationSummaryMemory:对话摘要,节省 tokens。
    • VectorStoreRetrieverMemory:长期记忆(向量库)。
     
 

5. Agents & Tools(智能代理)

 
  • Agent:让 LLM 自主决策、动态调用工具、完成多步骤复杂任务。
  • Tools:内置 / 自定义工具(搜索引擎、计算器、代码解释器、API、数据库、文件操作等)。
  • 典型场景:自然语言查数据库、联网搜索、写代码并运行、调用第三方服务。
 

三、典型应用场景

 
  • 企业知识库问答 / 智能客服(RAG + 记忆)。
  • 自然语言数据分析 / SQL 生成。
  • 文档处理(总结、翻译、信息抽取、问答)。
  • 聊天机器人 / 虚拟助手(多轮对话 + 工具调用)。
  • 代码助手(生成、解释、调试、运行)。
  • 自动化工作流(邮件、报表、审批、数据同步)。
 

四、生态工具

 
  • LangSmith:调试、测试、评估、监控 LLM 应用Langchain。
  • LangServe:把 Chain/Agent 快速部署为 REST APILangchain。
  • LangGraph:构建复杂、循环、状态 ful 的工作流与智能体。
  • LangChain Templates:开箱即用的应用模板(RAG、SQL Agent、Chatbot 等)Langchain。
 

五、一句话总结

 
LangChain = LLM + 数据 + 工具 + 流程编排,是当前开发 LLM 应用最主流、最成熟的框架之一。

------------------------------------------------------------------------------------------

推理支撑层技术详解 大模型推理部署平台(vLLM、MindIE、Ollama)大模型技术框架(LangChain、AutoGen、AgentSkilb)大模型应用平台(Dify、Langflow)
我给你用最清晰、最工程化、能直接做架构图的方式,把 AI 推理支撑层 = 推理部署平台 + 大模型框架 + 应用平台 三层讲透。你看完就能直接用来画架构、做方案、选型。

一、整体定位(一句话记住)

  • 推理部署平台:管模型怎么跑、快不快、稳不稳(GPU / 显存 / 并发 / 吞吐量)
  • 大模型技术框架:管怎么用模型做功能(RAG/Agent/ 工作流 / 调用)
  • 大模型应用平台:管怎么零代码 / 低代码快速上线(可视化、交付、运维)
它们是从下往上支撑的关系:模型 → 推理部署 → 技术框架 → 应用平台 → 最终用户

二、大模型推理部署平台

负责:模型加载、推理加速、多并发、显存优化、服务化你可以把它理解为 LLM 的 Web 容器 + 高性能引擎。

1. vLLM(最主流开源推理引擎)

  • 定位:高性能 LLM 推理服务器
  • 核心技术:PagedAttention 显存分页管理
  • 优势
    • 吞吐量极高、并发强
    • 支持几乎所有开源模型(Llama、Qwen、GLM 等)
    • 支持流式输出、OpenAI 兼容接口
  • 适用场景:生产环境、高并发、私有化部署

2. MindIE(华为昇腾芯片推理框架)

  • 定位:华为生态下的大模型推理服务平台
  • 特点
    • 深度适配昇腾 NPU
    • 模型压缩、加速、服务编排
  • 适用场景:国产化、政务、国企、昇腾环境

3. Ollama(本地开发神器)

  • 定位:本地一键跑大模型,极简部署
  • 优势
    • 一条命令启动模型
    • 自动下载、管理模型
    • 提供 API
  • 适用场景:开发调试、个人电脑、快速验证

小结

  • 生产用:vLLM
  • 国产化 NPU:MindIE
  • 本地开发:Ollama

三、大模型技术框架(开发框架)

负责:把模型变成应用(RAG、Agent、多智能体、工作流)是代码层的核心脚手架。

1. LangChain(最通用、最成熟)

  • 定位:LLM 应用开发标准框架
  • 核心能力
    • Prompt 模板
    • RAG 全链路(加载、切分、向量库、检索)
    • Chains、LCEL
    • Memory 记忆
    • Agent + Tools
    • 对接几乎所有模型 / 向量库
  • 地位:事实上的标准

2. AutoGen(多智能体框架)

  • 定位:微软出品,多 Agent 协作框架
  • 特点
    • 多个智能体互相聊天、协作完成任务
    • 支持人工介入
    • 适合复杂任务:代码、数据分析、自动化
  • 和 LangChain 区别:
    • LangChain 偏流程
    • AutoGen 偏多角色对话协作

3. AgentSkilb(企业级 Agent 开发框架)

  • 定位:国内企业级智能体框架
  • 特点
    • 面向生产、稳定、可监控
    • 工具化、可插拔
    • 适合政企私有化
  • 适用:工业级、安全合规、可管控的 Agent 系统

小结

  • 通用开发:LangChain
  • 多智能体协作:AutoGen
  • 企业级生产 Agent:AgentSkilb

四、大模型应用平台(低代码平台)

负责:可视化编排、快速上线、非开发者也能用不用写代码,拖拽就能做 RAG/Agent 应用。

1. Dify(国内最流行)

  • 定位:一站式 LLM 应用开发平台
  • 能力
    • 可视化 Prompt 编辑
    • RAG 知识库上传 / 解析 / 检索
    • 工作流编排
    • 发布为 API/Web 表单 / 客服
  • 优势
    • 开箱即用
    • 国产友好
    • 适合企业快速落地

2. Langflow(基于 LangChain 可视化)

  • 定位:LangChain 官方风格的拖拽式编排工具
  • 特点
    • 完全对应 LangChain 组件
    • 节点式编排:LLM、Prompt、RAG、Agent、Tools
  • 适合:喜欢 LangChain、想可视化搭建的开发者

小结

  • 企业落地、简单好用:Dify
  • 开发者、偏技术编排:Langflow

五、三层架构总图(最关键)

底层:推理部署层

vLLM / Ollama / MindIE→ 提供高速、稳定、可并发的模型服务

中层:开发框架层

LangChain / AutoGen / AgentSkilb→ 代码开发 RAG、Agent、工作流

上层:应用平台层

Dify / Langflow→ 可视化搭建、发布、运维

真实生产中最常见组合

  1. Ollama + LangChain + Dify(本地开发)
  2. vLLM + LangChain + Dify(正式上线)
  3. MindIE + AgentSkilb + Dify(国产化环境)

------------------------------------------------------------------------------------------

开源模型(Llama、Qwen、GLM 等都有哪些
下面按国际主流 + 国产头部两大阵营,把 Llama、Qwen、GLM 等主流开源大模型 一次性讲全,包含最新版本、参数、许可、核心特点、适用场景,方便你选型与对比。

一、国际主流开源模型(全球生态标杆)

1. Llama 系列(Meta)

  • 定位:开源 LLM 事实标准、全球生态最完善
  • 最新版本:Llama 4(2025)
    • 架构:MoE 混合专家(总参~1T,激活约 170B)
    • 上下文:100 万 + token(Scout 版本)
    • 能力:原生多模态(文 / 图 / 视频)、超长文档、推理强
  • 经典版本:Llama 2、Llama 3(8B/70B)
  • 许可:商用友好(需申请)
  • 优势:工具链最成熟、推理 / 微调框架全覆盖、社区问题解决最快
  • 适用:通用对话、RAG、Agent、私有化部署、企业级基座

2. Mistral 系列(Mistral AI)

  • 定位:欧洲最强开源、小参高效、推理极快
  • 代表:Mistral-7B、Mixtral-8x7B(MoE)、Mistral-Large
  • 特点:小参高性能、上下文 32K+、速度快、适合边缘 / 本地
  • 许可:Apache 2.0(完全开源商用)
  • 适用:轻量服务、API 网关、本地推理、低资源场景

3. Falcon 系列(TII)

  • 定位:中东开源标杆、长上下文、低成本
  • 代表:Falcon-7B/40B/180B
  • 特点:32K+ 上下文、支持多语言、推理速度快
  • 许可:Apache 2.0
  • 适用:通用对话、知识库、低成本私有化

二、国产头部开源模型(中文 / 工程化领先)

1. Qwen 千问系列(阿里通义)

  • 定位:中文最强开源、多模态 / 长上下文 / 推理顶尖
  • 最新旗舰:Qwen 3.5 / Qwen3-Max-Thinking(2026)
    • 参数:397B(MoE,激活 17B)、235B、72B、14B、7B、1.8B
    • 上下文:1M+ token、原生长文本
    • 能力:中文理解 / 生成、复杂推理、代码、多模态、Agent
  • 专项:Qwen3-Coder-Next(代码专用,3B 激活,性能对标闭源)
  • 许可:Apache 2.0(完全开源商用)
  • 优势:中文最优、超长上下文、多模态强、硬件优化好
  • 适用:中文知识库、企业客服、复杂推理、Agent、多模态应用

2. GLM 系列(智谱 AI)

  • 定位:中文对话 / 推理 / 编程顶尖、工程化极强
  • 最新旗舰:GLM-5(2026.2)
    • 架构:MoE、KV Cache 优化、推理速度快
    • 能力:编程(对标 Claude Opus)、长程 Agent、代码执行、数学推理
  • 经典:GLM-4.7(Thinking)、GLM-4、ChatGLM3/6B
  • 许可:开源免费、商用友好
  • 优势:中文强、推理 / 代码 / Agent 顶尖、国产芯片适配好
  • 适用:编程开发、数据分析、长程 Agent、私有化部署、政务 / 企业

3. DeepSeek 系列(深度求索)

  • 定位:数学 / 代码 / 推理天花板、性价比之王
  • 代表:DeepSeek-V3.2、DeepSeek-R1、DeepSeek-Coder
  • 参数:671B、67B、33B、7B
  • 特点:数学(AIME ~92%)、代码(LiveCodeBench ~86%)、推理极强、MIT 许可
  • 许可:MIT(最宽松,无商用限制)
  • 适用:数学 / 科学计算、代码生成、数据分析、本地部署、高性价比场景

4. MiniMax M2.5(MiniMax)

  • 定位:Agent 原生、编程强、消费级显卡可跑
  • 特点:Agent 能力突出、SWE-bench ~80.2%、支持本地部署
  • 许可:开源商用
  • 适用:Agent 开发、自动化办公、私有化、低成本大规模部署

5. Kimi K2.5(月之暗面 Moonshot AI)

  • 定位:思考链(Thinking)极强、代码 / 复杂任务顶尖
  • 特点:推理爆炸、代码接近 GPT-4、多模态、MIT 许可
  • 适用:复杂推理、代码生成、智能体集群、高要求对话

6. 百川 Baichuan 系列(百川智能)

  • 定位:早期中文开源标杆、轻量高效
  • 代表:Baichuan-7B/13B、Baichuan2
  • 特点:中文友好、轻量、适合本地 / 边缘
  • 适用:轻量对话、知识库、低成本私有化

三、其他值得关注的开源模型

1. BLOOM / BLOOMZ(BigScience)

  • 多语言:支持 46 种语言、开源社区共建
  • 适用:多语言场景、学术研究

2. Yi 系列(01.AI)

  • 特点:34B/6B、中文强、长上下文、推理优秀
  • 适用:中文对话、RAG、企业应用

3. StarCoder / CodeLlama

  • 定位:代码专用开源模型
  • 适用:代码生成、补全、调试、编程助手

四、核心对比速览(2026 最新)

表格
 
模型家族最新旗舰许可中文能力推理 / 代码上下文适用场景
Llama Llama 4 Meta 商用 1M+ 全球通用、企业基座
Qwen Qwen 3.5 Apache 2.0 极强 极强 1M+ 中文全场景、Agent、多模态
GLM GLM-5 开源免费 极强 极强 128K+ 编程、Agent、工程化
DeepSeek V3.2 MIT 极强 128K+ 数学、代码、高性价比
Mistral Large Apache 2.0 128K+ 轻量、本地、速度优先
MiniMax M2.5 商用 128K+ Agent、消费级部署
Kimi K2.5 MIT 极强 128K+ 复杂推理、代码

五、选型一句话建议

  • 中文场景首选:Qwen 3.5 / GLM-5
  • 代码 / 数学 / 推理首选:DeepSeek-V3.2 / GLM-5 / Kimi K2.5
  • 本地 / 消费级显卡:Qwen-14B/7B、GLM-4.7-Flash、Mistral-7B
  • 全球生态 / 兼容性:Llama 4 / Llama 3
  • 最宽松许可(无商用限制):DeepSeek(MIT)、Kimi(MIT)、Mistral(Apache 2.0)

------------------------------------------------------------------------------------------

向量化 / 召回 / 重排、图像 OCR 版面、基础大模型、行业大模型,一次性讲透。

 

 

模型层整体定位

 
模型层 = 表示模型 + 感知模型 + 大语言模型 + 行业专用模型
 
  • 表示模型:把文本 / 图像变成向量
  • 感知模型:看懂文档、图片、表格
  • 大语言模型:理解、推理、生成
  • 行业大模型:垂直领域专精
 

 

一、表示学习模型(向量、召回、排序)

 
负责:文本→向量、检索、相关性打分
 
RAG 最核心的模型层。
 

1. 向量模型(Embedding)

 
把句子 / 段落变成固定长度向量,用于语义检索。
 

BGE-M3(当前最主流通用)

 
  • 机构:BAAI 智源
  • 特点:多语言、超长上下文、统一向量空间
  • 能力:
    • 支持短文本 / 长文档
    • 支持中英文混合
    • 检索精度极高
     
  • 用途:RAG 召回主干
 

其他常用向量

 
  • bge-base、bge-large
  • text-embedding-ada-002(OpenAI)
  • jina-embeddings-v2(长上下文强)
  • Qwen-Embedding、GLM-Embedding(国产)
 

 

2. 召回模型(Retrieval)

 
从海量库里快速捞出候选,不追求精准,只求快 + 全。
 
常用方式:
 
  • 向量召回( you have: bge-m3 )
  • 关键词召回(BM25)
  • 混合召回 = 向量 + 关键词(最稳)
 

 

3. 排序模型(Reranker)

 
对候选结果做精细相关性打分,是 RAG 精度提升关键。
 

bge-reranker-v2-m3(最强开源重排之一)

 
  • 作用:给召回的段落重新排序
  • 输入:query + 文本
  • 输出:0~1 相关性分数
  • 效果:直接决定 RAG 答案准不准
 

其他常用

 
  • bge-reranker-large
  • Cohere Rerank
  • Jina-Reranker
 

 

二、感知类模型(图像 / OCR / 版面分析)

 
负责:把图片、扫描件、PDF 变成可检索文本
 
企业文档数字化必备。
 

1. OCR 模型

 
把图片里的文字抠出来。
 
常用:
 
  • PaddleOCR(百度飞浆,国产最强、开源、多语言)
  • EasyOCR
  • Tesseract
  • 阿里 / 腾讯云 OCR
 

2. 版面分析模型(Layout Analysis)

 
识别:标题、段落、表格、图片、页眉页脚、公式
 
常用:
 
  • LayoutLMv3(微软)
  • PaddleLayout(百度)
  • UniDoc(文档通用)
 

3. 表格识别(Table Recognition)

 
把图片表格 → Excel/HTML/ 结构化数据。
 
常用:
 
  • TableTransformer
  • PaddleTable
  • StructEqTable(表格 + 公式)
 

4. 图像识别 / 多模态模型

 
看图理解内容。
 
常用:
 
  • Qwen-VL
  • GLM-4V
  • Llama 3.2 Vision
  • MiniCPM-V
 

 

三、基础大模型(基座 LLM)

 
通用理解、推理、生成、对话、工具调用。
 
你要的这几个我精炼成选型级总结:
 

1. Qwen(阿里通义千问)

 
  • 版本:Qwen 3 / 3.5 / Qwen-MoE
  • 优势:中文极强、长上下文、多模态、推理强
  • 适合:RAG、Agent、企业通用、客服、知识库
 

2. DeepSeek(深度求索)

 
  • 版本:DeepSeek-V3 / V3.2
  • 优势:代码、数学、推理顶尖
  • 许可:MIT(最宽松)
  • 适合:NL2SQL、代码助手、数据分析、Agent
 

3. ChatGLM / GLM(智谱)

 
  • 版本:GLM-4 / GLM-4.7 / GLM-5
  • 优势:对话自然、工程化强、国产芯片适配好
  • 适合:政企私有化、办公助手、长文本
 

4. 其他国际基座

 
  • Llama 3 / 4(Meta)
  • Mistral
  • Phi(微软小模型)
 

 

四、行业大模型(垂直领域专用)

 
在通用模型基础上微调行业数据 + 行业知识。
 
你提到的法律大模型我重点讲:
 

1. 法律大模型

 

ChatLaw

 
  • 机构:北大 / 智谱
  • 定位:法律问答、法条检索、案件分析
 

LawGPT

 
  • 开源法律 LLM
  • 功能:法律咨询、合同审查、法律文书生成
 

LexPro

 
  • 法律专业级
  • 面向律所、法务、法院场景
 

通用能力

 
  • 法条检索
  • 合同审查、风险点提取
  • 法律文书生成
  • 案件预测、类案匹配
 

 

2. 其他常见行业大模型(你方案里可直接写)

 
  • 医疗大模型:MedGPT、HuatuoGPT
  • 教育大模型:教育对话、题库、批改
  • 金融大模型:研报分析、合规、风控
  • 政企 / 政务大模型:公文、政策、脱敏、合规
  • 代码大模型:CodeLlama、Qwen-Coder、DeepSeek-Coder
 

 

五、模型层整体架构(可直接复制进方案)

 
plaintext
 
 
模型层
├─ 表示学习模型
│   ├─ 向量模型:bge-m3、bge-large、Qwen-Embedding
│   └─ 排序模型:bge-reranker-v2-m3
├─ 感知模型
│   ├─ OCR:PaddleOCR
│   ├─ 版面分析:LayoutLMv3、PaddleLayout
│   ├─ 表格识别
│   └─ 多模态:Qwen-VL、GLM-4V
├─ 基础大模型
│   ├─ Qwen 系列
│   ├─ DeepSeek 系列
│   ├─ GLM / ChatGLM 系列
│   └─ Llama、Mistral
└─ 行业大模型
    ├─ 法律:ChatLaw、LawGPT、LexPro
    ├─ 医疗
    ├─ 金融
    └─ 代码/政企/教育
 
 

 
如果你需要,我可以立刻帮你生成:
 
  1. 可插入 PPT 的 Mermaid 模型层架构图
  2. 一份 正式方案版《模型层技术设计》文档

------------------------------------------------------------------------------------------

------------------------------------------------------------------------------------------

------------------------------------------------------------------------------------------

------------------------------------------------------------------------------------------

------------------------------------------------------------------------------------------

------------------------------------------------------------------------------------------

------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

posted @ 2026-02-27 17:35  hanease  阅读(30)  评论(0)    收藏  举报