SEARCH
新闻资讯

网站知识库

网站搜索引擎

2020/3/6 19:03:36

1.什么是搜索引擎

搜索引擎( Search Engines)是指一些能够自动搜索信息(搜索网页上的单词和特定的简短内容描述)并将其主动索引的Web网站,其索引内容储存在可供检索的大型数据库中,并建立索引和目录服务。搜索引擎是一个提供信息检索服务的网站,它使用某些程序把互联网上的所有信息归类,以帮助人们在茫茫互联网中找到必须要的信息。
 
搜索引擎是用于帮助互联网用户查询信息的搜索工具,如今搜索引擎已经成为必备的上网工具了。假如你要购买一件商品,但你不知道去哪家网上商城购买,那么去找搜索引擎,搜索引擎可以知足你的需求。
 
互联网的快速发展,也导致了互联网上大量“垃圾”信息的出现,而搜索引擎的作用之一就是将比较好的网站、质量比较高的网站排在搜索效果的前面,这样就可以有用帮助用户找到他们想要找的东西,这就是引擎的作用。
 
惯用的搜索引擎介绍如下。


 
google:全球最大的搜索引擎,1998年9月7日以私有股份公司的情势创立,目标是设计并管理一个互联网搜索引擎。Google公司总部位于美国加利福尼亚山景城,活着界各地设有贩卖和工程办事处。2010年, Google退出中国市场。
 
百度:全球最大的中文搜索引擎,2000年1月由李彦宏、徐勇两人创立于北京中关村,致力于提供“简单,可依靠”的信息获取方法。“百度”二字源于中国宋朝词人辛弃疾《青玉案·元夕》中的诗句“众里寻他千百度”,象征着百度对中文信息检索技术的执著寻求。
 
雅虎:美国闻名的互联网门户网站,20世纪末互联网奇迹的创造者之一,其服务包括搜索引擎、电子邮件自力用户消息等,营业遍及24供多元化的网络服务。
 
Bing:微软公司推出的一款用以庖代live Search的搜索引擎,简体中文版Bing于2009年6月1日正式开放,其他语言版本于200年6月3日正式在全球范围内发布。微软方面称,此款搜索引擎将以全新姿态面世,将带来新革命。其内测代号为“Kumo”,后来才被命名为“Bing”
 
搜搜:腾讯旗下的搜索网站,是腾讯的重要营业单元之一,于2006年3月正式发布并开始运营。搜搜目前已成为中国网民首选的三大搜索引擎之一,重要提供实用便捷的搜索服务,同时承担腾讯的悉数搜索营业,是腾讯团体在线生活战略中紧张的组成部分。
 
2.搜索引擎的工作原理
 
搜索引擎要“知道”网上的复活事物,就得派“人”出去收集。天天都有新的网站,天天都有新的内容,而且这些新的内容是爆炸式的,靠人工不可能完成收集义务,所以搜索引擎的发明者就设计了一个计算机程序来实行这个义务,而这个计算机程序被人们称为“探测器”。
 
探测器有许多叫法,如 Crawler(爬行器)、 Spider(蜘蛛)、 Robot(机器人)。这些叫法形象地描绘了搜索引擎派岀的蜘蛛机器人爬行在互联网上探测新信息的情景, Google的探测器叫做 Googlebot,百度的探测器叫做 Baiduspider,Yahoo的探测器叫做Slurp。无论名字是什么,它们都是人们编制的计算机程序。它们不分昼夜地访问各个网站,取回网站的内容、标签、图片等,然后依照搜索引擎的算法给定制索引。
 
搜索引擎的工作过程可简略分为以下3个阶段。
 
(1)爬行抓取:搜索引擎的蜘蛛程序通过链接爬行到网站,获得网站页面的HML代码并存入数据库。
 
(2)索引处理:蜘蛛程序把抓取的页面数据中的笔墨、图片等信息进行索引处理,为排名做预备
 
(3)排名:用户输入关键词后,搜索引擎的排名算法调用索引数据库中的信息计算并处理数据,然后按照相应的格式生成效果页面。
 
3.爬行抓取
 
搜索引擎蜘蛛程序通过网页的链接地址来探求网页,从网站的某一个页面(通常是首页)开始,读取网页的内容,找到网页中的其他链接地址,然后通过这些链接地址探求下个网页直这样循环下去,直到把这个网站的所有网页都抓取为止。假如网站的内容质量不高或者有大量重复信息,蜘蛛程序就没有“耐心”抓取网站里的所有信息了。假如把整个互联网当成一个网站,那么蜘蛛程序就可以用这个原理把互联网上所有的网页都抓取下来。但是,在现实的工作中,搜索引擎蜘蛛程序是不能抓取所有的互联网信息的,毕竟蜘蛛程序的带宽资源、时间都不是无穷的,它不可能“爬”到所有的页面。受到这些因素的制约,搜索引擎只能爬行和收录互联网信息的一小部分。
 
4.索引处理
 
抓取网页后,由分析索引体系程序对收集回来的网页进行分析,提取相干信息(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词的位置、生成时间、大小、与其他网页的链接关系等),根据肯定的相干度算法进行大量复杂的计算,得到每一个网页针对页面笔墨及超链中每一个关键词的相干度(或紧张性),然后用这些信息建立网页索引数据库。
 
任何搜索引擎在进行内容索引的时候都是以笔墨为基础的。搜索引擎在抓取页面的时候,并非只访问用户能看到的笔墨信息,还包含大量的HTML代码、CSS代码、 javascript代码等对排名没有作用的内容。抓取页面之后,搜索引擎就要处理这些信息,从HIML代码中星散出标签、代码,提取有利于网站排名处理的页面笔墨内容。
 
5.排名
 
建立网页索引数据库后,当用户输入关键词并进行搜索时,搜索体系程序会从网页索引数据库中找到吻合该关键词的所有相干网页。由于所有相干网页针对该关键词的相干度早已算好,所以只需按照相干度数值排序,相干度越高,排名越靠前。
 
影响相干性的因素包含如下几个方面:
 
(1)关键词岀现的位置:页面关键词岀现的位置会被搜索引擎抓取并记录到索引库中。会对搜索引擎排名造成影响的关键词位置包括题目< title >标签、<H1>标签等。
 
(2)关键词出现频率:一样平常来说,关键词在页面中出现的频率越高,密度越大,说明页面与搜索词的相干性越高,那么网页的排名也较好。但是,假如刻意造成页面关键词堆积,页面不仅不会有较好的排名,而且会受到搜索引擎的“责罚”。所以,在进行页面内容优化的时候,要注重关键词的密度、频率都不要太大。
 
(3)页面的链接也影响着关键词的相干性。假如页面中有较多的搜索词为锚文本链接,就说明页面的相干性比较强,这会对搜索引擎相干性的计算产生影响。
 
相干性计算完毕,网站设计过程中,搜索引擎可能还有一些过滤算法用于对排名进行调整。虽然这些过滤算法包含对页面作弊怀疑的判定,相干性较高的页面理应排在搜索效果的前面,但是搜索引擎的过滤算法可在最后的排名中把网站的排名调整到后面去。经过相干性算法、过滤算法之后,所有的网站设计关键词排名都确定了,排名程序调用原始页面的信息,并把这些信息在搜索效果中表现出来。
 







如没特殊注明,文章均为成都网站建设公司唯赛网络原创,转载请注明来自http://www.weseo.cn/News/knowledge_675_11213.html

Contact

ADD:成都市青羊区光华东三路西环广场6楼

TEL:028-64232097

Wechat

微信二维码