scrapy是python实现的一个爬虫框架,如果是写稍微复杂一点的爬虫,效率会非常高,只专注于业务代码即可。

scrapy的安装

scrapy的底层依赖lxml,twsited,openssl,涉及到的c库,可能会导致安装失败。 如提示失败可以windows安装vc++14.0 https://wiki.python.org/moin/WindowsCompilers

pip install
apt install python3-scrapy

scrapy命令

创建项目

scrapy startproject qianmu

生成spider文件

#scrapy genspider [爬虫名字] [目标网站域名]
scrapy genspider testproject hiwangqi.com

运行

# 运行爬虫文件
scrapy crawl testproject
# 爬到的数据导出json文件
scrapy crawl testproject -o testproject.json
# 导出为csv
-o testproject.csv -t csv
# 单独运行,走默认配置
scrapy crawl testproject

调试

# 进入控制台
scrapy shell [url]

进入控制台后

方法 描述
fetch 请求URL或Request对象,请求成功后会将当前作用域内的request和response对象重新复制
view 显示response的网页信息
shelp 打印帮助信息
spider 相应的spider类的实例
settings 保存所有配置信息的Settings对象
crawler 当前Crawler对象