摘要:
1.布尔检索: 倒排文档,ad Hoc检索(任务一直在变,数据集不变)2.词项词典及倒排记录表 词项集合的确定:词条化、去停用词、词项归一化(重音及变音符号问题、大小写转换问题、语言问题)、词干还原和词性归并 基于跳表的倒排记录表快速合并算法 含位置信息的倒排记录表-用于短语查询:二元词索引、位置信息检索、混合索引机制(二元+位置)3.词典及容错式检索 词典搜索的数据结构:哈希表(难以处理查询词项存在轻微变化的情况,难以处理前缀式查询), ---引出搜索树(二叉树、B树) 通配符查询:轮排索引(hello:hello$,ello$h,llo$he...)、K-gram索引(由k个字符组成的序列 阅读全文
posted @ 2011-04-29 23:53
跳刀的兔子
阅读(1187)
评论(0)
推荐(0)

浙公网安备 33010602011771号