import scrapy
from datetime import datetime class BianSpider(scrapy.Spider):
name = 'bian'
# allowed_domains = ['www']
start_urls = ['http://tech.163.com/special/00097UHL/tech_datalist.js?callback=data_callback'] def parse(self, response):
# print(response.body.decode('gbk'))
import json
---《for i in json.loads(response.body.decode('gbk').strip('data_callback(').strip(')')):》---
print(i['title'])
print(i['label'])
time_list = i['time']
---《print(datetime.strptime(time_list,'%m/%d/%Y %H:%M:%S'))》---
print(','.join([ii['keyname'] for ii in i['keywords']]))
desc_href = i['docurl']
yield scrapy.Request(desc_href,self.show) def show(self,response):
# print(response.xpath('//div[3]/div[2]/div[1]/div[1]//text()'))
types = response.xpath("string(//div[@class='post_crumb'])").extract_first().strip()
weizhi = ' '.join(response.xpath("//div[@class='post_crumb']//text()").extract()).strip() print(weizhi)
print(response.xpath('//*[@id="ne_article_source"]/text()').extract())
print(response.xpath('//*[@id="endText"]/div[2]/span[2]/text()').extract())

最新文章

  1. Python复习之下划线的含义
  2. echart饼状图使用,打发时间。
  3. iOS之 C++与oc混编
  4. NGUI 界面自适应
  5. 化繁为简,无需后端。巧用Yql+rss,搭建我的个人网站
  6. Android放大镜的实现
  7. 4--OC --合成存取器方法
  8. Spring aop切面插入事物回滚
  9. ABP官方文档翻译 3.3 仓储
  10. BBS论坛(二十七)
  11. django反向解析传参
  12. 定时任务Task
  13. Git——快速安装Git及初始化配置【二】
  14. [转] 浅谈Trie树(字典树)
  15. Hadoop2.7.3+HBase1.2.5+ZooKeeper3.4.6搭建分布式集群环境
  16. PHP中的__get()和__set()方法获取设置私有属性
  17. PAT B1007 素数对猜想 (20 分)
  18. Java中日期类型和mysql中日期类型进行整合
  19. MyEclipse+Weblogic+Oracle+PLSQL配置注意事项
  20. 华为/中兴 3G 语音的调试

热门文章

  1. Remove Element leetcode java
  2. CentOS7 搭建LVS+keepalived负载均衡
  3. CF-413E-线段树
  4. PAT Rational Sum
  5. 9. Palindrome Number(回文数)C++
  6. css层叠性冲突中的优先级
  7. pycham相关+Python基础
  8. TLS 改变密码标准协议(Change Cipher Spec Protocol) 就是加密传输中每隔一段时间必须改变其加解密参数的协议
  9. telnet强制中断登录
  10. 苹果手机 disabled 的背景颜色没有