有时候,连自己都在想,不得不佩服计算机的诞生。虽然是机器人,但是这个机器人却记录了N个数据,想要什么随时调出来就OK的那种。而我们经常说的好记性不如烂笔头,有时候即使记录了,都会遗忘。
所以,百度,谷歌到底是靠着什么强大的系统,去记录了这上亿的数据呢?程序化设计是必须的。而其内部操作的一个重要因素就是搜索引擎的正向索引。
正向索引,也可以简称为索引。就像我们写本科或者硕士论文一样,有个目录,便于检索,起到搜索的功能。可是我们的目录,基本是一眼看到底的。而对于庞大的各大网站的数据抓取,又会有什么样的排列组合呢?
第一:经过文字提取,分词,消噪,去重后,搜索引擎得到的就是独特的、能反映页面主要内容的、以词为单位的字符串。经过第一步骤后,搜索引擎就开始抓取关键词(这个关键词,就是前文提及过的需要我们认真思考的关键词)。
第二:云数据的强大,在于其整合排列。像学数学一样,组合排列是很重要的。所以,当蜘蛛抓取到了相关关键词后,就开始按照分词程序划分,将页面转换成一个关键词组成的集合,同时记录相关关键词在页面出现的频率,格式等等相关信息。
第三:进行上述的相关步骤后,每一个网站页面都会被相应的记录为一串关键词集合(包括词频,格式,位置等等)。
最后,进行表格的整合,让其一目了然。
依次排列后,每个文件都对应一个文件ID,文件内容被表示为一串关键词的集合。实际上在搜索引擎索引库中,关键词也已经转换为关键词ID。这样的数据结构就称为正向索引。
发表评论 取消回复