1、数组越界问题(list index out of range)

原因:第1种可能情况:list[index]index超出范围,也就是常说的数组越界。

   第2种可能情况:list是一个空的, 没有一个元素,进行list[0]就会出现该错误,这在爬虫问题中很常见,比如有个列表爬下来为空,统一处理就会报错。

解决办法:从你的网页内容解析提取的代码块中找找看啦(人家比较习惯xpath + 正则),加油 ~

---------------------------------------------------华丽的分隔符------------------------------------------------------------

2、http状态代码没有被处理或不允许(http status code is not handled or not allowed)

原因:第1种情况:就是你的http状态码没有被识别,需要在settings.py中添加这个状态码信息,相当于C语言中的#define预处理宏定义命令吧

第2种情况:403是网页状态码,表示访问拒绝或者禁止访问。应该是你触发到网站的反爬虫机制了。

解决办法:如果是第1种情况,在你的setting.py中,添这么一句短小精悍的话就OK了,紧接着就等着高潮吧您呐:HTTPERROR_ALLOWED_CODES = [403]

      如果是第2种情况,a.伪造报文头部user-agent(网上有详细教程不用多说)

b.使用可用代理ip,如果你的代理不可用也会访问不了

                                          c.是否需要帐户登录,使用cookielib模块登录帐户操作
           如果以上方法还是不行,那么你的ip已被拉入黑名单静止访问了。等一段时间再操作。如果等等了还是不行的话:
                                          d.使用phatomjs或者selenium模块试试。
           还不行使用别的scrapy爬虫框架看看。
           以上都不行,说明这网站反爬机制做的很好,爬不了了,没法了,不过我觉得很少有这种做得很好的网站

---------------------------------------------------华丽的分隔符------------------------------------------------------------

此篇文章持续更新,未完待续....

欢迎大家留下自己的问题,互相讨论,互相学习,互相总结,,,,

最新文章

  1. Excel 导入到Datatable 中,再使用常规方法写入数据库
  2. css3圆角(还有百分比设置椭圆) 阴影 字体
  3. Servlet开发配置
  4. java多线程系列2-线程控制
  5. C# winform 渐变效果
  6. Python发一个GET请求
  7. 柯南君:看大数据时代下的IT架构(8)消息队列之RabbitMQ--案例(topic起航)
  8. Step one : 熟悉Unix/Linux Shell 常见命令行 (三)
  9. 内功心法 -- java.util.ArrayList<E> (5)
  10. 掌握好这23个Linux命令常用项
  11. Eclipse: eclipse文本文件编码格式更改(GBK——UTF-8)
  12. C# 操作Word目录——生成、删除目录
  13. Maven项目启动报错:java.lang.ClassNotFoundException: com.mysql.jdbc.Driver
  14. ServiceLoader
  15. elk6.22
  16. android开发分辨率适配总结
  17. Java基础教程(17)--接口
  18. 关于SQL Server 2017中使用json传参时解析遇到的多层解析问题
  19. [android]Intent跳转新的Activity可以传递数据过去
  20. centos 目录结构 快捷键 ls命令,alias别名,so:动态库 a:静态库,环境变量PATH,Ctrl+z 暂停命令,Ctrl+a 光标到行首,Ctrl+e 光标到行尾,Ctrl+u 删除光标前所有字符 Ctrl+r 搜索命 hash命令 Ctrl+左箭头/右箭头 cd命令 第三节课

热门文章

  1. [LeetCode] Image Overlap 图像重叠
  2. 口袋appnabcd
  3. 使用datagrip链接mysql数据库的报错问题.
  4. 【转载】.NET压缩/解压文件/夹组件
  5. Android图标
  6. 实战经验丨PHP反序列化漏洞总结
  7. JavaWeb开发SSM框架搭建详解
  8. [Swift]LeetCode640. 求解方程 | Solve the Equation
  9. [Swift]LeetCode757. 设置交集大小至少为2 | Set Intersection Size At Least Two
  10. [Swift]LeetCode782. 变为棋盘 | Transform to Chessboard