Scrapy学习(二)、安装及项目结构

一、安装

1、安装pywin32,下载地址：https://sourceforge.net/projects/pywin32/files/pywin32/

我选择的是Build 221,点进去，根据自己电脑的python版本下载对应的版本

下载下来后，直接运行exe文件，无脑下一步，直至安装完成

2、安装Twisted，下载地址：https://www.lfd.uci.edu/~gohlke/pythonlibs/

找到Twisted，下载对应版本

下载完成后直接pip安装

3、安装scrapy,直接pip install scrapy。不报错就安装成功了

进入到工作目录，比如D:\Git\Spider，直接运行命令：scrapy startproject city_58

这样就成功创建了一个项目，进入到项目目录下，包含下列内容：

city_58

|scrapy.cfg

|--city_58

| items.py

| middlewares.py

| pipelines.py

| settings.py

| __init__.py

|--spiders

| __init__.py

city_58目录下的文件分别是：

scrapy.cfg：项目部署时的配置文件

city_58/：项目模块，可以在这个目录下加入代码

city_58/items.py：Items的定义，定义爬取的数据结构

city_58/pipelines.py：定义数据管道

city_58/middlewares.py：定义爬取时的中间件

city_58/settings.py：配置文件

city_58/spiders/：放置Spiders的文件夹

进入项目模块文件夹，这里是city_58,运行命令： scrapy genspider spider_city_58 58.com,其中spider_city_58 为爬虫名称，用于区别Spider,该名字必须是唯一的；58.com为启动时进行爬取的入口URL