爬虫流程及方法12(高性能异步爬虫)
前言
目的:在爬虫中使用异步实现高性能的数据爬取操作。
异步爬虫的方式:
–多线程,多进程(不建议):
好处:可以为相关阻塞的操作单独开启线程或者进程,阻塞操作就可以异步执行。
弊端:无法无限制的开启多线程或者多进程。
目的:在爬虫中使用异步实现高性能的数据爬取操作。
异步爬虫的方式:
–多线程,多进程(不建议):
好处:可以为相关阻塞的操作单独开启线程或者进程,阻塞操作就可以异步执行。
弊端:无法无限制的开启多线程或者多进程。
本篇鸣谢 清华——尹成 的整理收集
PyQuery文档https://www.osgeo.cn/pyquery/index.html
PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同,所以不用再去费心去记一些奇怪的方法了。
官网地址:http://pyquery.readthedocs.io/en/latest/
jQuery参考文档:http://jquery.cuishifeng.cn/
|
|
ajax请求请参考爬虫流程及方法09(动态加载页面)(ajax请求)(Json实例)
动态加载数据ajax
详情页url只有id不同其余相同
id从json中获取,域名与id拼接新url
详情页的数据也是动态加载出来的
详情页的url也是相同的只有id不同
本markdown文档初版下载链接:
(建议看初版文档理解书写格式,书写标准以本网站本页面为主)
https://pan.baidu.com/s/1z_2IsuaRh8cYmtssepvIXQ
提取码:0a83
本篇鸣谢胡国磊学长整理,由我进行加工发布
1.requests-BeautifulSoup
2.scrapy(5+2结构)
3.scrapy + requests-Beautiful-re + PhantomJS —>表单提交、爬取周期、入库存储(js处理)
4.requests-xpath
5.requests-ccs
6.requests库可与urllib库互换
1.在setting.py文件里修改并发选项
2.使用scrapy-*的高级补充库,特化某方面,提升速度
|
|
Request对象表示一个HTTP请求。
由Spider生成,由Downloader执行。
常用属性:
pycharm安装步骤:
1.打开左上角file
2.打开Other Setting下的Setting for New Project
3.在Project Interpreter选择Project Interpreter里你使用的编译器后,点击加号(+)添加包