会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
MyKai
博客园
首页
新随笔
联系
订阅
管理
2026年1月12日
非结构化文档索引构建
摘要: 将非结构化文档转换为可高效检索的结构化知识库。整个过程遵循“分而治之”的策略:大文档 → 小片段 → 数值向量 → 相似性检索。 建立索引 读取文本/PDF 分割文本 分割为文本段/chunk 向量化: 对每一段文本段向量化;在这里引入向量模型, 存储: 把多个文本段/向量 存入向量数据库 实践 将
阅读全文
posted @ 2026-01-12 00:17 MyKai
阅读(13)
评论(0)
推荐(0)
公告