(1)自动下载尽可能多的网页
通过什么样的模型来解决,图论的遍历算法:深度优先..支点和连接支点的弧构成的就叫作图..超链接就是弧,网页就是支点..
广度优先:尽可能多的访问每个节点所连接的其他节点。
深度优先:一条路下去,一个节点。
什么叫蜘蛛:控制器(中枢神经,URL集合,分配给解析器),解析器(由解析器根据图论的遍历算法去浏览,互联网),下载器。
(2)建立有效快速的索引
(3)根据相关性对网页进行公平准确的排序
第三步我们又将其分为4部分
(1) 将查询发送到索引服务器。
(2) 将转送转送到文件服务器。
(3) 生成摘要并排序搜索结果。
(4) 展示结果返回给用户。