百度与谷歌搜索引擎【检索功能】的异同点

作者：创始人　日期：2020-06-28　人气：6624

　　一个搜索引擎的算法，有很多的方面。主要是“域名、密度、相关度、服务器稳定、内链、外链、内容更新、域名时间、内容数量”这些方面。这些都是搜索引起算法最核心的部分。说白了也就是你做关键词，给网站做优化需要注意的问题。只有做竞争很大网站优化的时候，才会考虑这么多要素。经常看到一些 “seo高手”说，我没有优化，这个词就做到了第一位，或我网站名称一直在第一名等。那些都是没有什么竞争的词，这个时候，你只需要考虑密度即可。遇到那些竞争激烈的词，你就要注意更多的因素了，也就是那些牛人常说的，要主意细节问题。说这话的，基本都是技术有两下的。

　　然而这么要素，在三大搜索引擎中的权重又各不相同。例如百度非常看重密度，雅虎看重玉米的时间，google很看重外链和外链的稳定。他们都有自己的算法侧重点，想要在三大搜索引擎中获得好的排名，就都要考虑。

　　关于robots文件，百度完全不搭理这个东西。而google却非常看重。还有404和500错误。这些东西百度是从来不管的，而google是相当重视的，重视到你可怕的程度.

　　给公司做的网站，前段时间突然google的收录为零了。不是一个站，是大部分站点。当时找不到原因，我以为是几个网站内容重复性太高，而且共用一个模板照成的。当我的一个同事给这些网站做google地图的时候发现，无法验证那个文件。让服务器管理员找原因也没有找到，后来还是这位同事细心，发现了网站出现500错误。本应该是404的错误，却出现了500，就因为这一个原因，google就拒绝了收录，而且清空了数据。解决这个问题后，第二天google就重新收录了。

　　当时我就一个感慨，google真够变态的。做优化，必须要注重细节问题，不要以为自己很牛B了，其实还有很多问题你没有发现。什么是高手?高手就是可以解决难题的人。

　　其实google只是细节方面注意太多，最变态的莫过于雅虎了。难道是因为雅虎做搜索最早的缘故?雅虎对于作弊站点，毫不留情，与百度不相上下。

　　对于K掉IP，基本上搜索引擎很少去做。尤其是百度很少这样做，他会K掉大部分，而保留小部分站点，IP是很少封的。因为百度知道，国内还是虚拟主机的天下。然而老外IP多，服务器也多，国外的空间都是送IP的，所以雅虎看到你作弊，就会毫不留情的K掉你的IP。IP下的站点，就是不收录你，那怕你和那个作弊的站点没有任何关系。

　　从这些细节方面，我们就可以看出他们为什么会那样做了。国情不同啊，想要本地化，不和百度学真的不行。虽然百度经常很无耻的K掉你，而不给你赎罪的机会。概念】
搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息，在对信息进行组织和处理后，并将处理后的信息显示给用户，是为用户提供检索服务的系统。
　　从使用者的角度看，搜索引擎提供一个包含搜索框的页面，在搜索框输入词语，通过浏览器提交给搜索引擎后，搜索引擎就会返回跟用户输入的内容相关的信息列表。
　　互联网发展早期，以雅虎为代表的网站分类目录查询非常流行。网站分类目录由人工整理维护，精选互联网上的优秀网站，并简要描述，分类放置到不同目录下。用户查询时，通过一层层的点击来查找自己想找的网站。也有人把这种基于目录的检索服务网站称为搜索引擎，但从严格意义上讲，它并不是搜索引擎。

【分类】
　　1、全文索引
　　全文搜索引擎是名副其实的搜索引擎，国外代表有Google，国内则有著名的百度搜索。它们从互联网提取各个网站的信息（以网页文字为主），建立起数据库，并能检索与用户查询条件相匹配的记录，按一定的排列顺序返回结果。
　　根据搜索结果来源的不同，全文搜索引擎可分为两类，一类拥有自己的检索程序（Indexer），俗称“蜘蛛”（Spider）程序或“机器人”（Robot）程序，能自建网页数据库，搜索结果直接从自身的数据库中调用，上面提到的Google和百度就属于此类；另一类则是租用其他搜索引擎的数据库，并按自定的格式排列搜索结果，如Lycos搜索引擎。
　　2、目录索引
　　目录索引虽然有搜索功能，但严格意义上不能称为真正的搜索引擎，只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息，不依靠关键词（Keywords）进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo、新浪分类目录搜索。
　　3、元搜索引擎
　　元搜索引擎（META Search Engine）接受用户查询请求后，同时在多个搜索引擎上搜索，并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、 Vivisimo等，中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面，有的直接按来源排列搜索结果，如Dogpile；有的则按自定的规则将结果重新排列组合，如Vivisimo。
　　其他非主流搜索引擎形式：
　　1、集合式搜索引擎：该搜索引擎类似元搜索引擎，区别在于它并非同时调用多个搜索引擎进行搜索，而是由用户从提供的若干搜索引擎中选择，如HotBot在2002年底推出的搜索引擎。
　　2、门户搜索引擎：AOL Search、MSN Search等虽然提供搜索服务，但自身既没有分类目录也没有网页数据库，其搜索结果完全来自其他搜索引擎。
　　3、免费链接列表（Free For All Links简称FFA）：一般只简单地滚动链接条目，少部分有简单的分类目录，不过规模要比Yahoo！等目录索引小很多。

【工作原理】
　　1、抓取网页
　　每个独立的搜索引擎都有自己的网页抓取程序（spider）。Spider顺着网页中的超链接，连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍，理论上，从一定范围的网页出发，就能搜集到绝大多数的网页。
　　2、处理网页
　　搜索引擎抓到网页后，还要做大量的预处理工作，才能提供检索服务。其中，最重要的就是提取关键词，建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度。
　　3、提供检索服务
　　用户输入关键词进行检索，搜索引擎从索引数据库中找到匹配该关键词的网页；为了用户便于判断，除了网页标题和URL外，还会提供一段来自网页的摘要以及其他信息。

【全文搜索引擎】
　　在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索，即每隔一段时间（比如Google一般是28天），搜索引擎主动派出“蜘蛛”程序，对一定IP地址范围内的互联网站进行检索，一旦发现新的网站，它会自动提取网站的信息和网址加入自己的数据库。
　　另一种是提交网站搜索，即网站拥有者主动向搜索引擎提交网址，它在一定时间内（2天到数月不等）定向向你的网站派出“蜘蛛”程序，扫描你的网站并将有关信息存入数据库，以备用户查询。由于近年来搜索引擎索引规则发生了很大变化，主动提交网址并不保证你的网站能进入搜索引擎数据库，因此目前最好的办法是多获得一些外部链接，让搜索引擎有更多机会找到你并自动将你的网站收录。
　　当用户以关键词查找信息时，搜索引擎会在数据库中进行搜寻，如果找到与用户要求内容相符的网站，便采用特殊的算法——通常根据网页中关键词的匹配程度，出现的位置/频次，链接质量等——计算出各网页的相关度及排名等级，然后根据关联度高低，按顺序将这些网页链接返回给用户。

【目录索引】
　　与全文搜索引擎相比，目录索引有许多不同之处。
　　首先，搜索引擎属于自动网站检索，而目录索引则完全依赖手工操作。用户提交网站后，目录编辑人员会亲自浏览你的网站，然后根据一套自定的评判标准甚至编辑人员的主观印象，决定是否接纳你的网站。
　　其次，搜索引擎收录网站时，只要网站本身没有违反有关的规则，一般都能登录成功。而目录索引对网站的要求则高得多，有时即使登录多次也不一定成功。尤其象Yahoo!这样的超级索引，登录更是困难。
　　此外，在登录搜索引擎时，我们一般不用考虑网站的分类问题，而登录目录索引时则必须将网站放在一个最合适的目录（Directory）。
　　最后，搜索引擎中各网站的有关信息都是从用户网页中自动提取的，所以用户的角度看，我们拥有更多的自主权；而目录索引则要求必须手工另外填写网站信息，而且还有各种各样的限制。更有甚者，如果工作人员认为你提交网站的目录、网站信息不合适，他可以随时对其进行调整，当然事先是不会和你商量的。
　　目录索引，顾名思义就是将网站分门别类地存放在相应的目录中，因此用户在查询信息时，可选择关键词搜索，也可按分类目录逐层查找。如以关键词搜索，返回的结果跟搜索引擎一样，也是根据信息关联程度排列网站，只不过其中人为因素要多一些。如果按分层目录查找，某一目录中网站的排名则是由标题字母的先后顺序决定（也有例外）。
　　目前，搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索，如Google就借用Open Directory目录提供分类查询。而象 Yahoo! 这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围（注）。在默认搜索模式下，一些目录类搜索引擎首先返回的是自己目录中匹配的网站，如国内搜狐、新浪、网易等；而另外一些则默认的是网页搜索，如Yahoo。

【搜索引擎的发展史】
　　1990年，加拿大麦吉尔大学（University of McGill）计算机学院的师生开发出Archie。当时，万维网（World Wide Web）还没有出现，人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息，提供查找分别在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索，Archie告诉用户哪个FTP服务器能下载该文件。虽然Archie搜集的信息资源不是网页（HTML文件），但和搜索引擎的基本工作方式是一样的：自动搜集信息资源、建立索引、提供检索服务。所以，Archie被公认为现代搜索引擎的鼻祖。
　　搜索引擎的起源:
　　所有搜索引擎的祖先，是1990年由Montreal的McGill University三名学生（Alan Emtage、Peter Deutsch、Bill Wheelan）发明的Archie（Archie FAQ）。Alan Emtage等想到了开发一个可以用文件名查找文件的系统，于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序，但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表，用户必须输入精确的文件名搜索，然后Archie会告诉用户哪一个FTP地址可以下载该文件。由于Archie深受欢迎，受其启发，Nevada System Computing Services大学于1993年开发了一个Gopher（Gopher FAQ）搜索工具Veronica（Veronica FAQ）。Jughead是后来另一个Gopher搜索工具。

你觉得这篇文章怎么样？

0 0

百度与谷歌搜索引擎【检索功能】的异同点

快捷导航