互联网搜索服务多见于搜索引擎,如百度、谷歌等;同时也存在于一些信息繁多、难于快速查找的网站中。搜索服务帮助人们抓取到大量信息并整理,为人们的生活提供面面俱到的帮助。
由于搜索引擎主要以自动方式在网上搜索信息, 经过标引形成索引数据库。索引数据库的构成是网络检索工具检索效果实现的基础, 主要采用标引深度和更新频率两个指标; 检索工具提供的检索功能也是评价搜索引擎的重要指标, 如除了提供传统的检索功能外, 是否可提供多媒体检索功能、多语种检索功能、自然语言检索功能和相关反馈等。在检索效果评价方面, 除查全率、查准率和响应时间外, 还应将重复链接数量和死链接数量作为评价指标。用户负担和检索结果的显示与传统评价指标相类似。传统的信息检索效果评价, 通常以查全率、查准率和响应时间 3 个指标为主。但随着因特网信息检索的兴起, 信息量的急剧增加, 对信息检索效果的评价又增加了新的内容。1973 年美国学者 Lancaster 和 Fayen 曾列出 6 项衡量信息检索系统的评价指标, 即覆盖范围( Coverage) 、查全率( Recall Ratio) 、查准率( Precision Ratio) 、响应时间( Response Time) 、用户负担( Uset Effort) 和检索结果输出格式( Formt out put) 。应该说, 这些指标虽是 30年前提出的, 并且针对的是传统联机检索系统, 但是就信息检索系统的本质来说, 对搜索引擎的评价仍然有一定的借鉴作用。Heting Chu, Marilyn Rosenthal 在对 Alta Vista, Excite 和 Lycos 三个搜索引擎进行比较研究之后提出应该从标引、检索能力、检索效果、输山、用户负担方面评价搜索引擎。国内研究人员曾民族在综合国内外搜索引擎评价研究成果的基础上, 提出了以下评价指标: ①数据库规模和内容, 包括索引组成、更新周期。 ②索引方法, 包括自动索引、人工索引、用户登录。 ③检索功能, 包括布尔操作( 含嵌套) 、截词查找、字段查找、大小写有别、概念检索、词语加权、词语限定、特定字段限定、缺省值、中断退出、重复辨别、上下文关键词、查询集操作。 ④检索结果, 包括相关性排序(单纯排序或注明排序分值)、显示内容(注释或摘要)、输出数量选择( 限定或改变显示数量) 、显示格式选择。 ⑤用户界面, 包括帮助文件、数据库和检索功能说明、查询举例。 ⑥查准率和响应时间。 不论采取哪种评价标准, 用户在实际使用过程中最为关心的还是查准率、查全率和响应时间。
传统的衡量情报检索性能优劣的两个重要的计量指标是查全率和查准率。查全率是指检出的相关文献量和文献空间中所有相关文献量的比率, 查准率是指检索出相关文献的数量和检索出的文献总量的比率。然而, 这种真实的查全率和查准率在搜索引擎的评价中是很难实现的。因为没有任何一种搜索引擎可以包罗所有的网上信息资源。虽然目前数据库中网页数量最多的Google 声称有超过 30 亿个网页, 但是可以预见的是, 这个数字远远少于整个网络上的网页数量。因此, 对于因特网信息检索来说,真实的查全率和查准率是很难计算的, 甚至估算都很困难。
通常指的是收集了万维网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。再经过复杂的算法进行排序(或者包含商业化的竞价排名、商业推广或者广告)后,这些结果将按照与搜索关键词的相关度高低(或与相关度毫无关系),依次排列。
搜索引擎派出一个能够在网上发现新网页并抓文件的程序,这个程序通常称之为爬虫(Spider)。搜索引擎从已知的数据库出发,就像正常用户的浏览器一样访问这些网页并抓取文件。搜索引擎通过这些爬虫去爬互联网上的外链,从这个网站爬到另一个网站,去跟踪网页中的链接,访问更多的网页,这个过程就叫爬行。这些新的网址会被存入数据库等待搜索。所以跟踪网页链接是搜索引擎爬虫(Spider)发现新网址的最基本的方法,所以反向链接成为搜索引擎优化的最基本因素之一。搜索引擎抓取的页面文件与用户浏览器得到的完全一样,抓取的文件存入数据库。
爬虫抓取的页面文件分解、分析,并以巨大表格的形式存入数据库,这个过程即是索引(index).在索引数据库中,网页文字内容,关键词出现的位置、字体、颜色、加粗、斜体等相关信息都有相应记录,以便后面的处理。
用户在搜索引擎界面输入关键词,单击“搜索”按钮后,搜索引擎程序即对搜索词进行处理,如中文特有的分词处理,去除停止词,判断是否需要启动整合搜索,判断是否有拼写错误或错别字等情况。处理完毕后将数据传入后端服务器,以便下一步操作。
对搜索词处理后,后端的搜索引擎程序便开始工作,从索引数据库中找出所有包含搜索词的网页,并且根据排名算法计算出哪些网页应该排在前面,然后按照一定格式返回到前端页面。
网站搜索与搜索引擎工作原理类似,主要的三个功能模块:网页搜集、预处理、查询服务。
在网站搜索中,网页搜集主要为两种方式:定期搜集,增量搜集。
作为预处理阶段的一个基本任务就是提取出网页源文件的内容部分所含的关键词。对于中文来说,就是要根据一个词典E,用一个所谓的“切词软件”,从网页文字中切出E所含的词语来这样,一个网页主要就由一组词来近似代表了,要去掉诸如“的”,“在”等没有内容指示意义的词,称为“停用词”(stop word)一篇网页有效的词语数量大约在200个左右。
根据查询的短语分词,然后按各词查询结果取交集。
网络机器人(Robot)又被称作Spider、Worm或Random,核心目的是为获取Internet上的信息。一般定义为“一个在网络上检索文件且自动跟踪该文件的超文本结构并循环检索被参照的所有文件的软件”。机器人利用主页中的超文本链接遍历WWW,通过URL引用从一个HTML文档爬行到另一个HTML文档。网上机器人收集到的信息可有多种用途,如建立索引、HIML文件合法性的验证、URL链接点验证与确认、监控与获取更新信息、站点镜像等。 机器人安在网上爬行,因此需要建立一个URL列表来记录访问的轨迹。它使用超文本,指向其他文档的URL是隐藏在文档中,需要从中分析提取URL,机器人一般都用于生成索引数据库。所有WWW的搜索程序都有如下的工作步骤: (1)机器人从起始URL列表中取出URL并从网上读取其指向的内容; (2)从每一个文档中提取某些信息(如关键字)并放入索引数据库中; (3)从文档中提取指向其他文档的URL,并加入到URL列表中; (4)重复上述3个步骤,直到再没有新的URL出现或超出了某些限制(时间或磁盘空间); (5)给索引数据库加上检索接口,向网上用户发布或提供给用户检索。 搜索算法一般有深度优先和广度优先两种基本的搜索策略。机器人以URL列表存取的方式决定搜索策略:先进先出,则形成广度优先搜索,当起始列表包含有大量的WWW服务器地址时,广度优先搜索将产生一个很好的初始结果,但很难深入到服务器中去;先进后出,则形成深度优先搜索,这样能产生较好的文档分布,更容易发现文档的结构,即找到最大数目的交叉引用。也可以采用遍历搜索的方法,就是直接将32位的IP地址变化,逐个搜索整个Internet。 量贩式搜索引擎优化是一个技术含量很高的网络应用系统。它包括网络技术、数据库技术动标引技术、检索技术、自动分类技术,机器学习等人工智能技术。
索引技术是搜索引擎的核心技术之一。搜索引擎要对所收集到的信息进行整理、分类、索引以产生索引库,而中文搜索引擎的核心是分词技术。分词技术是利用一定的规则和词库,切分出一个句子中的词,为自动索引做好准备。索引多采用Non—clustered方法,该技术和语言文字的理解有很大的关系,具体有如下几点: (1)存储语法库,和词汇库配合分出句子中的词汇; (2)存储词汇库,要同时存储词汇的使用频率和常见搭配方式; (3)词汇宽,应可划分为不同的专业库,以便于处理专业文献; (4)对无法分词的句子,把每个字当作词来处理。 索引器生成从关键词到URL的关系索引表。索引表一般使用某种形式的倒排表(inverted list),即由索引项查找相应的URL。索引表也要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻关系或接近关系,并以特定的数据结构存储在硬盘上。 不同的搜索引擎系统可能采用不尽相同的标引方法。例如:Webcrawler利用全文检索技术,对网页中每一个单词进行索引;Lycos只对页名、标题以及最重要的100个注释词等选择性词语进行索引;Infoseek则提供概念检索和词组检索,支持and、or、near、not等布尔运算。检索引擎的索引方法大致可分为自动索引、手工索引和用户登录三类。
检索器的主要功能是根据用户输入的关键词在索引器形成的倒排表中进行检索,同时完成页面与检索之间的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。 通过搜索引擎获得的检索结果往往成百上千,为了得到有用的信息,常用的方法是按网页的重要性或相关性给网页评级,进行相关性排序。这里的相关度是指搜索关键字在文档中出现的额度。当额度越高时,则认为该文档的相关程度越高。能见度也是常用的衡量标准之一。一个网页的能见度是指该网页入口超级链接的数目。能见度方法是基于这样的观点:一个网页被其他网页引用得越多,则该网页就越有价值。特别地,一个网页被越重要的网页所引用,则该网页的重要程度也就越高。结果处理技术可归纳为: (1)按频次排定次序,通常,如果一个页面包含了越多的关键词,其搜索目标的相关性应该越好,这是非常合乎常理的解决方案。 (2)按页面被访问度排序 在这种方法中,搜索引擎会记录它所搜索到的页面被访问的频率。人们访问较多的页面通常应该包含比较多的信息,或者有其他吸引入的长处。这种解决方案适合一般的搜索用户,而因为大部分的搜索引擎都不是专业性用户,所以这种方案也比较适合一般搜索引擎使用。 (3)二次检索 进一步净化(比flne)结果,按照一定的条件对搜索结果进行优化,可以再选择类别、相关词进行二次搜索等。 由于搜索引擎还不具备智能,除非知道要查找的文档的标题,否则排列第一的结果未必是“最好”的结果。所以有些文档尽管相关程度高,但并不一定是用户最需要的文档。
Google搜索是由Google公司推出的一个互联网搜索引擎,它是互联网上最大、影响最广泛的搜索引擎。Google每日透过不同的服务,处理来自世界各地超过30亿次的查询。
除了搜索网页外,Google亦提供搜索图像、新闻组、新闻网页、地图、影片的服务。2005年6月,Google已存储超过80亿个网页,1亿3千万张图片,以及超过1亿的新闻组消息 - 总计大概10亿4千万个项目。它也缓存了编入索引中的绝大多数网页的内容。
因为Google的名声,“Google”一个事物做动词表示的是“在Google上搜索”。它还有引申义“在互联网上搜索”,甚至“(在实际环境中)搜索”的意思。Google官方通过律师信强烈反对这种滥用他们公司名字的习惯,因为它可能会导致Google变成一个通用商标名。
百度公司(简称百度,英语:Baidu)是一家主要经营搜索引擎服务的互联网公司,于2000年1月1日由李彦宏、徐勇两人创立于北京中关村[2]。“百度”源自中国南宋词人辛弃疾的《青玉案·元夕》的一句词:“众里寻他千百度,蓦然回首,那人却在,灯火阑珊处”[3],企业标志则是一个“熊掌”,来自于“猎人以熊掌来寻迹”的意象。中国互联网过去曾有三大巨头,互联网称其为BAT企业(“A”与“T”分别是阿里巴巴集团(Alibaba Group)和腾讯(Tencent),当时百度亦曾是其中一员,代表是“B”)。
截至2018年5月,百度在Alexa的排名上位于第四,中国互联网公司排名第一[4],占全世界搜索引擎市场份额12.3%(居于第二位,仅次于谷歌)。
Yahoo 【美】Verizon无线公司
bing 【美】微软公司
Google 【美】谷歌公司
DuckDuckGo 【美】DuckDuckGo公司
Goo 【日】 日本电报电话公司
Rambler 【俄】漫步者网络公司
Yandex 【俄】Yandex公司
这里存放条目相关的国家标准
7haoyu, 木又, black_white_tony, @关键字, 透明qbz, 等待明天