全国客服热线:4006-880844

网站建设定制网络爬虫

- 编辑:admin -

网络爬虫主要有两个阶段:一, URL库初始化然后开始爬取;二, 爬虫读取没有访问过的URL, 来确定它的工作范围。

       网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。网络爬虫主要有两个阶段:一, URL库初始化然后开始爬取;二, 爬虫读取没有访问过的URL, 来确定它的工作范围。其中, 对于所要抓取的URL链接, 进行以下步骤。
       (1) 获取URL链接
       (2) 解析内容, 获取URL及相关数据
       (3) 存储有价值的数据
       (4) 对新抓取的URL进行规范化
       (5) 过滤掉不相关的URL
       (6) 将要抓取的URL更新到URL库中
       (7) 重复步骤2, 直到终止条件为止。