博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python学习笔记——爬虫的抓取策略
阅读量:6473 次
发布时间:2019-06-23

本文共 380 字,大约阅读时间需要 1 分钟。

1 深度优先算法

 

2 广度/宽度优先策略

3 完全二叉树遍历结果

深度优先遍历的结果:[1, 3, 5, 7, 9, 4, 12, 11, 2, 6, 14, 13, 8, 10]

广度优先遍历的结果:[1, 3, 2, 5, 4, 6, 8, 7, 9, 12, 11, 14, 13, 10]

4 实践中怎么来组合爬取策略

(1)一般来说,重要的网页距离入口站点的距离很近;

(2)广度/宽度优先有利于多爬虫并行进行合作;

(3)可以考虑将深度与广度/宽度相结合的方式来实现抓取的策略:优先考虑广度优先,对深度进行限制最大深度。

5 一个通用爬虫的流程如下

(1)设置种子站点、宽度及深度

(2)一个已下载的队列来记录所有已经完成下载的url

(3)实现一个函数,取得当前url的内容以及所有的外链接

(4)递归调用这个函数,来遍历网站

(5)错误日志处理

 

转载地址:http://jpvko.baihongyu.com/

你可能感兴趣的文章
ABP理论学习之领域服务
查看>>
Qt 控制watchdog app hacking
查看>>
让所有IE支持HTML5的解决方案
查看>>
RDD之五:Key-Value型Transformation算子
查看>>
Windows 搭建Hadoop 2.7.3开发环境
查看>>
python操作mysql数据库实现增删改查
查看>>
percona 5.7.11root初始密码设置
查看>>
Cognitive Security的异常检测技术
查看>>
Impress.js上手 - 抛开PPT、制作Web 3D幻灯片放映
查看>>
生活杂事--度过十一中秋
查看>>
Pyrex也许是一个好东西
查看>>
Java内部类总结
查看>>
WINFORM WPF字体颜色相互转换
查看>>
能力不是仅靠原始积累(三)
查看>>
实战:使用终端服务网关访问终端服务
查看>>
彻底学会使用epoll(一)——ET模式实现分析
查看>>
路由器的密码恢复
查看>>
【Android 基础】Android中全屏或者取消标题栏
查看>>
Xilinx 常用模块汇总(verilog)【03】
查看>>
脱离标准文档流(2)---定位
查看>>