随笔档案「2026年1月12日」：非结构化文档索引构建 ... - MyKai

摘要：将非结构化文档转换为可高效检索的结构化知识库。整个过程遵循“分而治之”的策略：大文档 → 小片段 → 数值向量 → 相似性检索。建立索引读取文本/PDF 分割文本分割为文本段/chunk 向量化：对每一段文本段向量化；在这里引入向量模型, 存储：把多个文本段/向量存入向量数据库实践将阅读全文

posted @ 2026-01-12 00:17 MyKai 阅读(13) 评论(0) 推荐(0)

MyKai