索引是经过文字,分词,消噪,去重后,搜索引擎得到的就是独特的,能反映页面主体内容的,以词为单位的内容,接下来搜索引擎索引程序就可以提取关键词,按照分词程序划分好的词,把页面转换为一个关键词组成的集全,同时记录每一个关键词在页面上的出现频率,出现次数,格式,位置.这样,每个页面都可以记录为一串关键词集全,其中每个关键词的词频,格式,位置等权重信息也都记录在案.
正向索引不能直接用于排名,如果只存在正向索引,排名程序需要扫描所有索引库中的文件,找出包含关键词的2个文件,再进行相关性计算,这样的计算量无法满足实时返回排名结果的要求.
所以搜索引擎会将正向索引数据仓库重新构造为倒排索引,把文件对应到关键词的映射转换为关键词到文件的映射.在倒排索引中关键词是主键,每个关键词都对应着一系列文件,这些文件中都出现了,这个关键词,这样当用户搜索某个关键词时,排序程序在倒排索引中定位到这个关键词就可以马上找出所有包含这个关键词的文件.
版权所有@2004-2020 四川省巨高科技有限公司 备案号:蜀ICP备12009681号 网址:www.chinaspc.com
手机:13880394188 联系人:马先生 在线业务咨询:
业务洽谈地址:成都市高新区环球中心E2区5楼 地址:成都农高区创新中心(温江区科锦路355号)