当我开始可以上网时,怎么找到你需要的信息就成了一个很大的问题。你知道网上有很多的东西,但你却不知道它在哪里。这时候伟大的搜索引擎就可以救你于水深火热之中。
如同之前所说的,刚开始上网时,主要是通过门户网站上的超链接(就是点击了会跳到另外一个网页的文字或图片)来浏览网络。超链接的确是互联网中简单却又异常有用的发明。通过超链接,成千上万的网页得以互联连接。通过不同的组织方式,人们可以更好的浏览内容,发现相关内容,链接广告还可以用来变现等等。
但超链接也有很大的局限性,如果你只是在一个内容相对集中的站点中浏览,那么超链接可以给你很好的指引。但如果你想在茫茫的互联网上找到相关的内容,单纯的超链接似乎就力不从心了。当你从一个页面进行了10几次跳转还没找到相关内容的时候,估计你就完全没有耐心继续寻找了。
搜索引擎的出现,就帮人们解决了互联网上的定位问题。通过搜索引擎,只需要相应的关键字,你就可以很容易的早点相关的内容,而不需要通过似乎无止境的超链接导航一层一层的走。
当然,搜索引擎并不是孤立存在的,能使搜索引擎存在的基础便是超链接的存在。搜索引擎能完成搜索最重要的两个核心要素——信息抓取和信息排序,都离不开超链接。
搜索引擎依靠一种叫做“爬虫”(spider)的程序在互联网获取信息。之所以称之为“爬虫”就是因为这个程序会顺着它获得到的超链接一直“爬”,正是由于互联网超链接的互通性,从一些大的站点或者一些重要的导航站(目录站)出发,爬虫就有可能通过这些千千万万的链接走遍整个互联网。
搜索引擎的爬虫在”爬“到相应的网站时,就会将该网站存到自己的数据库中,以便搜索排序之用。就是说,想要实现真正的搜索,搜索引擎厂商需要将几乎整个互联网都装进自己的服务器中。
为了存储这些数据,搜索引擎公司需要有大量的服务器。谷歌中国前技术总监周杰在2008年的一次会议上曾经透露过Googl拥有的服务器数量级,他说“Google的服务数量大约相当于美国第三大PC生产商。”虽然不知道具体数据,我们还可以从另外一个侧面来看谷歌的数据中心规模,据谷歌公布的数据显示,谷歌全球能源消费达到2.6亿瓦特,这相当于弗吉尼亚州首府里士满或者加州欧文市家庭用户的所有用电量,或者说,这相当于一座标准核电站1/4的输出功率。大多数数据报告都认为谷歌是世界上拥有最多服务器的企业。
当然,仅仅是储存这些数据是远远不够的,搜索的目的就是要找出*用户需求的网页。这时候搜索引擎就需要对不同的网页进行排序,而这个排序的基础也是通过超链接计算出来的。
简单来说,搜索引擎的排序基础算法是这样的:大多数网页都有超链接链向它,或者它会链向别人,而这种链接可以被认为是每个网页对其他网页质量好坏的投票。搜索引擎认为,如果有大量的链接链向某个页面,那这个页面就是受欢迎的,就应该在搜时被排在前面。反之没有人链接的网站就是不受欢迎的。当然,搜索引擎还会考虑关键字匹配程度、链接网页本身的质量等多种因素,但大体上其工作原理就是上面所说的那样。
正是由于搜索引擎的工作原理是通过超链接实现的,就可以理解大多数网站为什么那么喜欢交换友情链接了。因为增互相间的链接是可以提高网站在搜索引擎的排名的。当然如果你没有那么多“友人”的话,你还可在网上找到很多卖“友链”的人的,他们会很“友好”的告诉你每条链接的价钱。
直接卖链接,是比较初级的做法。因为即使有链接,但效果怎么样实在难以衡量。在搜索引擎称霸互联网以后,就出现了一种特殊的工种——SEO(搜索引擎优化)。SEO的职责就是让网站的排名在搜索引擎里尽量靠前,这样你的网站就有可能被跟多的人访问到。正如上一篇所说的,很多网站会有专门的SEO人员来优化自己网站的排名。
围绕搜索引擎,有很多相关的上下游产业。这边就不一一展开去了。当你知道搜索引擎的大概工作原理,你就能大概理解这些行当都是做什么的。
回到搜索引擎本身,如上面提到的,要从成千上亿条数据中快速找出需要的页面并完成排序,这在技术上也并不是一件容易的事情,调度上万台机器的资源可不容易,包括微软、雅虎在内的企业都曾经在搜索引擎上摔过跟头。
搜索引擎在基础设施投资和技术门槛上都可以说是一件门槛非常高的事,但于此同时搜索引擎又有着一种令人着迷的盈利模式,这让很多企业都对引擎业务趋之若鹜。