第三百四十节,Python分布式爬虫打造搜索引擎Scrapy精讲—css选择器

css选择器

1、

2、

3、

 ::attr()获取元素属性,css选择器

::text获取标签文本

举例:

extract_first('')获取过滤后的数据,返回字符串,有一个默认参数,也就是如果没有数据默认是什么,一般我们设置为空字符串

extract()获取过滤后的数据,返回字符串列表

# -*- coding: utf-8 -*-
import scrapy class PachSpider(scrapy.Spider):
name = 'pach'
allowed_domains = ['blog.jobbole.com']
start_urls = ['http://blog.jobbole.com/all-posts/'] def parse(self, response): asd = response.css('.archive-title::text').extract() #这里也可以用extract_first('')获取返回字符串
# print(asd) for i in asd:
print(i)

最新文章

  1. android adb命令
  2. ACM题目————Equations
  3. UIActionViewController 详解 iOS8
  4. php的冒泡算法
  5. poj 3233 Matrix Power Series
  6. zoj2729 Sum Up(模拟)
  7. Data URI(转)
  8. 过河(DP)
  9. 【转】Entity Framework 5.0系列之自动生成Code First代码
  10. 重构手法之Split Temporary Variable(分解临时变量)
  11. 测者的性能测试手册:Yourkit 监控JettyYourkit 监控Jetty
  12. Simulink--MATLAB中的一种可视化仿真工具
  13. Project Euler Problem 10
  14. mybatis-config.xml 模板
  15. java的前缀自增自减和后缀自增自减
  16. easyui表单提交验证form
  17. Python中raw_input() & input() 的功能对比
  18. 海思hi3518 移植live555 实现H264的RTSP播放
  19. 字段值为NULL时的like注意事项
  20. 页面跳转问题-button 确定提交按钮

热门文章

  1. 菜鸟学Java(十八)——异常
  2. 菜鸟学Java(八)——dom4j详解之读取XML文件
  3. Flink安装、高可用性
  4. jQuery中 index() 方法的使用
  5. win10+VS2015+boost_1.60.0
  6. windows下使用mingw编译出ffplay(简化版)
  7. Linux: grep多个关键字“与”和“或”
  8. MySQL5.7 利用keepalived来实现mysql双主高可用方案的详细过程
  9. spring集成RabbitMQ配置文件详解(生产者和消费者)
  10. Android 面试知识集2