网站建设定制网络爬虫

- 编辑：admin - 2019-04-22 12:46:56

网络爬虫主要有两个阶段:一, URL库初始化然后开始爬取;二, 爬虫读取没有访问过的URL, 来确定它的工作范围。

网络爬虫(又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者)，是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁，自动索引，模拟程序或者蠕虫。网络爬虫主要有两个阶段:一, URL库初始化然后开始爬取;二, 爬虫读取没有访问过的URL, 来确定它的工作范围。其中, 对于所要抓取的URL链接, 进行以下步骤。
(1) 获取URL链接
(2) 解析内容, 获取URL及相关数据
(3) 存储有价值的数据
(4) 对新抓取的URL进行规范化
(5) 过滤掉不相关的URL
(6) 将要抓取的URL更新到URL库中
(7) 重复步骤2, 直到终止条件为止。