对于anaconda与pycharm,因为在pycharm中一直下不成功tensorflow,所以后来又下了anaconda,pycharm就可以直接使用anaconda的编译器,

一直都很正常,但是,就scrapy而言,在anaconda成功使用,但是,pycharm就不成功,一直显示不存在该包。

就只能用pycharm上修改代码,anaconda的prompt下执行代码。

1、在终端输入scrapy startproject XX,就表明在该包下创建scrapy项目XX

2、输入scrapy genspider news www.baidu.com,就是表明要爬www.baidu.com,同时在scrapy项目下的spiders新建news.py

3、终端中执行的代码为scrapy crawl news

4、如果想要爬网站,最好将项目中setting.py中

ROBOTSTXT_OBEY变为False,

为了查看更方便可以增加 , LOG_LEVEL='WARNING'

为了访问网站成功,将DEFAULT_REQUEST_HEADERS中增加User-Agent

5、可以将start_urls改为真正想要访问的网站,上面创建时的网站,只是域网。

6、执行,在终端中输入scrapy crawl new

7、如果要保存在json下,则可以

            author = response.xpath('//div[@id="info"]//p[1]/text()').extract()
content = response.xpath('//div[@id="intro"]//p/text()').extract()
yield{
"content" : content
"author" : author
}

8、简单的执行方法可以,建一个run.py,然后,在有该文件下,直接在终端输入python run.py

from scrapy import cmdline

cmdline.execute("XX".split())

最新文章

  1. Windows Server 2008 双网卡同时上内外网 不能正常使用
  2. svn patch用法
  3. IIS 部署WCF 4.0
  4. Wowza® Media Systems 使用配置手册。
  5. mysql 得到重复的记录
  6. python 学习笔记十一 SQLALchemy ORM(进阶篇)
  7. sql优化点整理
  8. F2063 Could not compile used unit 'tt.pas'
  9. 数据库备份和恢复秩序的关系(周围环境:Microsoft SQL Server 2008 R2)
  10. RelativeLayout与LinearLayout的区别
  11. SQL Server 后续去除功能汇总
  12. WebGL开发入门
  13. 莫烦theano学习自修第九天【过拟合问题与正规化】
  14. javascript:变量的作用域
  15. JVM java垃圾回收机制
  16. js 判断数组重复元素以及重复的个数
  17. DependencyProperty属性介绍
  18. (转)修改及查看mysql数据库的字符集
  19. [iOS] Edit / Memo 原生控件才提供拼字检查
  20. Java Web 1-开发环境搭建(未完待续)

热门文章

  1. python智能提示配置
  2. word2vec 注意事项
  3. hyperscan在低版本系统应用问题
  4. 对C语言指针的理解
  5. leetcode 刷题(2)--- 两数相加
  6. 第二次Scrum冲刺——Life in CCSU
  7. 3.go语言的转译字符
  8. Linux之prink原理
  9. JDBC-Oracle连接教程
  10. Merging one UE4 project into another.