2022年 11月 5日

Python3网络爬虫之Scrapy框架的使用

 Scrapy框架项目使用步骤:

1.先安装Scrapy框架

pip install scrapy

 2.使用命令可快速创建Scrapy项目 scrapy startproject 项目名字

 scrapy startproject Tencent

在项目中,自动生成了如上多个文件,其中:

  • spiders包是自定义的爬虫文件夹 
  • items.py文件是定义抓取的数据结构,就是爬虫所需要的字段,比如招聘标题、岗位等
  • middlewares.py文件是中间件,可以自定义requests请求和进行response过滤
  • pipelines.py文件是管道,处理引擎传过来的数据,比如存储
  • settings.py文件是项目的全局配置文件
  • scrapy.cfg文件是项目基本配置文件

 3.创建完成后,切换到项目路径下 cd 项目名

cd Tencent

4.启动 Scrapy项目 scrapy genspider 爬虫名 域名

scrapy genspider tencent  careers.tencent.com

在spiders包下自动生成tencent.py文件 

  • tencent.py文件是自定义的爬虫文件

5.编写爬虫文件 

  • items.py 定义要抓取的数据结构 如:name = scrapy.Field()
  • tencent.py 编写爬虫文件主体逻辑,实现数据的抓取
  • settings.py 修改
    全局配置
    文件
  • pipelines.py  
    .
    编写管道文件
    ,将数据存入
    MySQL
    数据库和
    CSV
    文件中
  • world_cloud.py 编写词云图代码逻辑,实现词云图输出

6. 运行爬虫 scrapy crawl 爬虫名

scrapy crawl tencent 

或者在spiders文件夹同级的路径下创建run.py启动文件:

  1. # -*- coding:utf-8 -*-
  2. from scrapy import cmdline
  3. cmdline.execute("scrapy crawl tencent".split())

工程截图如下: