今日头条这类的网站制作,从数据形式,CSS样式都是通过数据接口的样式来决定的,所以它的抓取方法和其他网页的抓取方法不太一样,对它的抓取需要抓取后台传来的JSON数据,先来看一下今日头条的源码结构:我们抓取文章的标题,详情页的图片链接试一下:

看到上面的源码了吧,抓取下来没有用,那么我看下它的后台数据:‘

所有的数据都在后台的JSON展示中,所以我们需要通过接口对数据进行抓取

提取网页JSON数据

执行函数结果,如果你想大量抓取记得开启多进程并且存入数据库:

看下结果:

总结一下:网上好多抓取今日头条的案例都是先抓去指定主页,获取文章的URL再通过详情页,接着在详情页上抓取,但是现在的今日头条的网站是这样的,在主页的接口数据中就带有详情页的数据,通过点击跳转携带数据的方式将数据传给详情页的页面模板,这样开发起来方便节省了不少时间并且减少代码量

最新文章

  1. golang实现冒泡排序
  2. python集合类型set
  3. B’QConf(北京软件质量大会)记
  4. SyntaxError: Non-UTF-8 code starting with '\xba' in file 错误的解决方法!!
  5. SharePoint2013TimerJob计时器发送邮件
  6. ViewFilpper
  7. git - 简明指南(转)
  8. POJ 2585 Window Pains 题解
  9. jmeter3.3测试需要登录的接口(java)
  10. Android Studio JNI javah遇到的问题
  11. [Swift]LeetCode241. 为运算表达式设计优先级 | Different Ways to Add Parentheses
  12. numpy交换列
  13. 华为路由器帧中继 FR 实验
  14. day37协程与线程套接字通讯
  15. Nginx的安装与部署
  16. sql 语句的limit的用法
  17. 前端开发周报: CSS 布局方式方式与JavaScript数据结构和算法
  18. asp.net mvc流程图4.6以前
  19. 如何寻找linux下相关软件
  20. hashCode()方法 和 hash()方法

热门文章

  1. POJ-1733 Parity game(带权并查集区间合并)
  2. KAFKA伪集群单机安装
  3. MVC——EF 回顾总结
  4. 【系统安装】如何在VMware软件中安装ghost格式的系统
  5. header() 被用来发送自定义的 HTTP 报文
  6. Python KNN 学习曲线
  7. Django专题-ugettext_lazy
  8. BBS登录功能
  9. JS控制 input 输入字符限制全搜集
  10. 吴裕雄--天生自然 pythonTensorFlow图形数据处理:循环神经网络预测正弦函数