新闻资讯
电子商务-搜索引擎
1,搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序收集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。
2,搜索引擎分类
(1) 全文搜索引擎:从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。
根据搜索结果来源的不同,可分为两类:
一类拥有自己的网页抓取、索引、检索系统(Indexer)
另一类则是租用其他搜索引擎的数据库。
搜索引擎的自动信息搜集功能分两种:定期搜索,提交网站搜索。
(2) 目录索引:将网站分门别类地存放在相应的目录中,只是按目录分类的网站链接列表而已。
(3) 元搜索引擎:接受用户查询后同时在多个搜索引擎上搜索并返回结果给用户。
(4) 垂直搜索引擎:专注于特定搜索领域和需求。
3,搜索引擎工作原理
(1).抓取网页---网页抓取程序(spider,蜘蛛程序)。
(2).处理网页
最重要的就是提取关键词,建立索引文件,其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。
(3) 提供检索服务
4,搜索引擎组成部分
搜索引擎一般由搜索器、索引器、检索器和用户接口四个部分组成:
搜索器:其功能是在互联网中漫游,发现和搜集信息;(使用分布式、并行计算技术)。
索引器:其功能是理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表;(使用集中式索引算法或分布式索引算法)。
检索器:其功能是根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息。
用户接口(HTML页面):其作用是接纳用户查询、显示查询结果、提供个性化查询项。
5, 索引项有客观索引项和内容索引项两种
---客观项与文档的语意内容无关,如作者名、URL
---内容索引项是用来反映文档内容的,如关键词及其权重、短语、单词等等。
内容索引项可以分为单索引项和多索引项(或称短语索引项)两种。
对于中文等连续书写的语言,必须进行词语的切分(分词技术)。
6,检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。
7,用户输入接口可以分为简单接口和复杂接口
简单接口只提供用户输入查询串的文本框;复杂接口可以让用户对查询进行限制。
8,网络蜘蛛即Web Spider,是一种半自动的程序, 通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。
9,网络蜘蛛在抓取时,评价网页重要性的主要依据之一是某个网页的链接深度
两种策略:广度优先(最常用的方式,可以让网络蜘蛛并行处理,提高其抓取速度)
深度优先。
关键问题:HTML分析,页面处理,多线程,确定何时完成
10,搜索引擎核心算法
ü 网页抓取程序(网络蜘蛛)
ü 关键词提取
ü 索引文件创建方式
ü 重复网页合并
ü 结果排序算法
ü 中文分词算法(如:理念和服务)
ü 网页类型判断(语言判断:meta标签、字符编码、内容分析等)
ü 超链接分析
ü 网页重要性与丰富度计算
回复列表