嵌入模型(Embedding)

1. 核心概念

　　A. Embedding：将非结构化数据(如文本、图像)转换为连续向量的降维抽象表示技术，使语义相近的词在空间中是彼此靠近，它是模型理解语言的起点；

　　B. 向量维度：向量的长度，也就是模型输出的维度；

　　C. 最大Token数：输出文本的最大长度。

2. 分类

　　A. 稀疏Embedding：擅长关键词匹配，适用于需要精确匹配的场景；

　　B. 稠密Embedding：擅长语义理解，适用于需要捕捉语义相似度的场景；

　　C. 混合Embedding：结合稀疏Embedding和稠密Embedding的优势，以实现更全面的检索效果。

3. 常用方法

　　A. 词向量Word2Vec：经典词嵌入方法，它是每个词有固定的向量；

　　B. GioVe：基于全词词频统计；

　　C. 句向量BERT等Transformer：生成上下文相关的嵌入，同一个词在不同的上下文中生成向量不同；

　　D. 句子嵌入模型Sentence-BERT：直接输出句子 / 段落级向量，兼顾精度与速度。

4. 多模态Embedding：让不同模态的数据可以在同一空间进行比较

　　A. 图像Embedding

　　B. 音频Embedding

5. Embedding技术限制

　　A. 长文本拆分后上下文丢失：Embedding模型一般对文本长度有限制，如1024tokens，超过长度的文本需要拆分，一旦拆分就可能导致上下文信息缺失，最终导致检索偏差；

　　B. 领域适配性有限：通用模型在专业领域表现不佳，无法捕捉更专业语义的细微差别；

　　C. 向量计算的准确性与效率平衡：准确性越高，查询效率就越低，要查询速度快，准确性就可能降低，需要平衡二者关系适中。

6. 常见模型

　　A. BGE-M3

　　B. Qwen3

7. 常见问题

　　A. 问题：在huggingface网站上下载模型报错：OSError: We couldn‘t connect to ‘https://huggingface.co‘ to load this file

　　　解决办法：找到环境中的constants.py文件：conda路径/env/环境名称/Lib/site-packages/huggingface_hub/constants.py

　　　　　　　　修改HUGGINGFACE_CO_URL_HOME和_HF_DEFAULT_ENDPOINT值为https://hf-mirror.com

posted @ 2025-07-24 09:11 如幻行云阅读(63) 评论(0) 收藏举报

刷新页面返回顶部

如幻行云