在今天的这篇文章中,将会给大家主要介绍搜索引擎技术的诞生历史、发展历程和每代技术中的核心思路。
正文
网络与世界的互联
故事要从1992年说起。
那是一个没有“网”的年代。那时候天还很蓝,大家主流的消磨时间的方式还是坐在村口的小板凳上聊天,而不是“坐下玩会儿手机”,毕竟那时候还没有手机。
而时代的巨轮正在悄然启动。这一年,美国副总统戈尔提出了“信息高速公路计划”,次年,美国总统克林顿全力推进了该计划,并由此爆发了互联网超常规发展的黄金十年。
随着“信息高速公路计划”的推进,全球互联网用户急剧增加,互联网上的信息也随之不断增加。时至1995年,互联网上的Web站点数超过了100万,也诞生了曾风云一时的搜索引擎Yahoo。
雅虎
Yahoo诞生的背景是这样的:互联网上Web站点过载,普通用户难以依赖手工浏览的方式获取自己想要的信息。因此,雅虎当时选择依靠人工编辑导航目录的方式来给用户提供服务(与hao123相似),这种方式为雅虎带来了快速的发展。
随着时间的推移,互联网上的Web网站越来越多,网站的内容覆盖的范围也越来越大,传统的人工编辑导航目录逐渐不再适用。在1998年,Google成立并以PageRank链接分析等新技术大幅提升了搜索技术,来到了舞台的中心。
搜索引擎Google
两年后的2000年,李彦宏先生携“超链分析”技术回国创业,创立了众里寻他千百度的“百度”,一并走到了舞台的中央。
从搜索引擎的诞生至今已有20余年,搜索引擎技术的发展也经历了四个主要阶段。
第一个阶段是,分类目录的阶段。
中文分类目录hao123
分类目录可以称之为“网址导航”,hao123和Yahoo是这个阶段的代表。通过人工的收集和整理,把属于各个门类的高质量网站进行罗列,减少了用户筛选网站的复杂度,直接让用户进行访问。
这是一种没有技术含量但却在互联网发展早期非常好用的方案。
第二个阶段是,文本检索的阶段。
文本检索的阶段采用了许多经典的信息检索模型,如布尔模型、向量空间模型或概率模型,用来计算用户输入的查询词(Query)与网页文本内容的相关程度。
相比于第一个阶段的分类目录方法,文本检索阶段向前跨越了“一大步”,奠定了整个搜索引擎的发展大方向。
在效果上,这一阶段的解决方案仍然“差强人意”。
第三个阶段是,链接分析的阶段。
这一阶段的搜索引擎在文本检索的基础上,深入挖掘和利用了网页中链接所隐含的信息。用现在的眼光看来,网页之间的链接关系代表了一种“推荐关系”,通过对链接的分析可以得到重要的网站。
这一阶段的典型代表就是Google所提出的PageRank链接分析技术,通过链接分析对网页重要性进行筛选,再结合文本检索阶段中的相关性,使得搜索质量有了质的飞跃。
第四个阶段是,以用户为中心的阶段。
“以用户为中心”并不是一句空话,而是最近这些年各大互联网公司一直在实践的方向。
随着搜索引擎技术的完善,一些问题逐渐浮出了水面。比如,同样一个查询词“苹果”,在果粉和果农心中的目的显然不同;再比如,同样一个用户的查询词,也会因为搜索行为的时间和地点的不同而产生变化。
为了提供更好的搜索体验和搜索质量,理解用户带来的信息至关重要。在这个阶段,机器学习技术不断的与搜索引擎技术相融合,并大大改善了搜索质量和搜索体验。