嵌入模型(Embedding)
1. 核心概念
A. Embedding:将非结构化数据(如文本、图像)转换为连续向量的降维抽象表示技术,使语义相近的词在空间中是彼此靠近,它是模型理解语言的起点;
B. 向量维度:向量的长度,也就是模型输出的维度;
C. 最大Token数:输出文本的最大长度。
2. 分类
A. 稀疏Embedding:擅长关键词匹配,适用于需要精确匹配的场景;
B. 稠密Embedding:擅长语义理解,适用于需要捕捉语义相似度的场景;
C. 混合Embedding:结合稀疏Embedding和稠密Embedding的优势,以实现更全面的检索效果。
3. 常用方法
A. 词向量Word2Vec:经典词嵌入方法,它是每个词有固定的向量;
B. GioVe:基于全词词频统计;
C. 句向量BERT等Transformer:生成上下文相关的嵌入,同一个词在不同的上下文中生成向量不同;
D. 句子嵌入模型Sentence-BERT:直接输出句子 / 段落级向量,兼顾精度与速度。
4. 多模态Embedding:让不同模态的数据可以在同一空间进行比较
A. 图像Embedding
B. 音频Embedding
5. Embedding技术限制
A. 长文本拆分后上下文丢失:Embedding模型一般对文本长度有限制,如1024tokens,超过长度的文本需要拆分,一旦拆分就可能导致上下文信息缺失,最终导致检索偏差;
B. 领域适配性有限:通用模型在专业领域表现不佳,无法捕捉更专业语义的细微差别;
C. 向量计算的准确性与效率平衡:准确性越高,查询效率就越低,要查询速度快,准确性就可能降低,需要平衡二者关系适中。
6. 常见模型
A. BGE-M3
B. Qwen3
7. 常见问题
A. 问题:在huggingface网站上下载模型报错:OSError: We couldn‘t connect to ‘https://huggingface.co‘ to load this file
解决办法:找到环境中的constants.py文件:conda路径/env/环境名称/Lib/site-packages/huggingface_hub/constants.py
修改HUGGINGFACE_CO_URL_HOME和_HF_DEFAULT_ENDPOINT值为https://hf-mirror.com



浙公网安备 33010602011771号