第303章 玄涅重组 (第1/3页)
/./虽然后世以百度、谷歌为代表的搜索引擎最终呈献给用户的.只是一个只有一个搜索条和一个搜索按钮的简单页面.但是隐藏在页面后台的却是一个由成千上万台服务器.天文数字级的海量数据.以及一个复杂的搜索引擎软件组成的庞大系统.而这个系统的核心.就是搜索引擎.
搜索引擎虽然很复杂.但是其系统总体架构却并不复杂.主要由网络数据采集模块.数据分析排序模块.数据库.用户查询请求分析模块等组成.起工作流程也很简单:
网络数据采集模块是一个很重要的模块.其主要功能是从网络上抓取网页信息发送回搜索引擎服务器.这个模块有一个很形象的名字.叫做网络蜘蛛.也有人把它叫做网络机器人.之所以叫网络蜘蛛.是因为蜘蛛会踩着它吐的蛛丝在网上漫步.而网络蜘蛛虽然自己不吐丝.但是互联网上的超链接却将无数的网页连接成一个巨大的网.网络蜘蛛则会在这个网上不停地到处爬行.采集网页信息.之所以叫网络机器人.却是因为这种爬行搜索的过程.是完全自动化进行的缘故.
网络蜘蛛将搜集到的网页信息.发送回搜索引擎服务器.由网络数据分析模块对之进行分析.按照一定的算法.给每个网页赋予一定的权重.将网页进行排序.
判断一个搜索引擎的优劣.很大程度上.取决于这个排序算法.一个优秀的全文搜索引擎.能够通过优化排序.让用户第一时间得到自己想要的信息.而不用继续往下翻页.所以.这个排序算法将会是整个搜索引擎最核心的技术.
对此.肖远自然也是十分熟悉的.实际上.他并沒有打算从头至尾自己独立去完成搜索引擎的开发.而是准备在玄涅组建一个开发小组.共同合作來完成整个系统的开发.但是.网页信息权重分配和排序模块.作为其中最重要.最核心的部分.他却是要自己亲自开发的.而且在开发完成后.还会将之作为公司最核心的技术机密.为之申请专利.利用法律对其进行保护.
至于其他非核心的模块.即使是网络蜘蛛这样的重要功能模块.在搞清楚工作原理后.开发
(本章未完,请点击下一页继续阅读)