Scrapy框架项目使用步骤:
1.先安装Scrapy框架
pip install scrapy
2.使用命令可快速创建Scrapy项目 scrapy startproject 项目名字
scrapy startproject Tencent
在项目中,自动生成了如上多个文件,其中:
- spiders包是自定义的爬虫文件夹
- items.py文件是定义抓取的数据结构,就是爬虫所需要的字段,比如招聘标题、岗位等
- middlewares.py文件是中间件,可以自定义requests请求和进行response过滤
- pipelines.py文件是管道,处理引擎传过来的数据,比如存储
- settings.py文件是项目的全局配置文件
- scrapy.cfg文件是项目基本配置文件
3.创建完成后,切换到项目路径下 cd 项目名
cd Tencent
4.启动 Scrapy项目 scrapy genspider 爬虫名 域名
scrapy genspider tencent careers.tencent.com
在spiders包下自动生成tencent.py文件
- tencent.py文件是自定义的爬虫文件
5.编写爬虫文件
- items.py 定义要抓取的数据结构 如:name = scrapy.Field()
-
tencent.py 编写爬虫文件主体逻辑,实现数据的抓取
-
settings.py 修改
全局配置
文件 -
pipelines.py
.
编写管道文件
,将数据存入
MySQL
数据库和
CSV
文件中 -
world_cloud.py 编写词云图代码逻辑,实现词云图输出
6. 运行爬虫 scrapy crawl 爬虫名
scrapy crawl tencent
或者在spiders文件夹同级的路径下创建run.py启动文件:
- # -*- coding:utf-8 -*-
-
- from scrapy import cmdline
-
- cmdline.execute("scrapy crawl tencent".split())
工程截图如下: