百度阅读爬虫 项目总结
环境与依赖(Python 2.7)
- 网络请求:urllib2 或 requests(建议 requests 低版本,兼容 2.7)
- 解析:BeautifulSoup(bs4)或 lxml,或正则 re
1 | |
抓取范围与策略
- 仅抓取公开列表页与书籍预览/详情的公开字段(标题、作者、分类、简介片段等)。
- 请求前先检查 robots.txt;设置 UA、Referer,控制速率(如 1 秒/请求)。
- 失败重试(最多 3 次),并在重试间隔中指数退避。
入口与 robots.txt 检查
1 | |
列表页抓取(示例)
- 假设存在公开分类列表页(示意 URL),解析书卡片中的标题与链接。
1 | |
详情页解析(只取公开字段)
1 | |
失败重试与指数退避
1 | |
清洗与存储(CSV 示例)
1 | |
百度阅读爬虫 项目总结
https://blog.pangcy.cn/2018/10/31/后端编程相关/python/python2基础/百度阅读爬虫 项目总结/