scrapy爬取boss直聘实习生数据
2024-08-29 19:54:57
这个。。是我最近想找实习单位。。结果发现boss上很多实习单位名字就叫‘实习生’。。。。。。。太不讲究了 == 难怪一直搜不到。。咳,其实是我自己水平有限,有些简历根本就投不出去 ==
所以就想爬下boss杭州地区有实习生关键词的所有职位,然后在职位详情里面搜索‘python’或者‘爬虫’。。。。
然后小白开始动手了。。。
首先写item 名字。。公司。。内容。。url
再接着去写爬虫 通过xpath 分析列表页的详情页url 再通过url进入详情页分析数据 (泪流满面。这过程居然没动态加载的数据。。。)
下一页的url我是通过获取最后一个a标签拿到的 再如果有下一页,就继续爬
至于这个反爬机制 我不仅在settings里设置了下载器延迟 爬虫里面也弄了time.sleep 。。。穷学生买不起代理啊。。。。。好了。。就是慢慢爬。。。。
数据直接导入了mysql mysql代码是早写好的异步代码,当然对于这个龟速爬取(安全),异步同步没区别。。
然后就没然后了 。。。。 小白思路描述完毕
爬完以后发现也只有10页。。。。。懵逼 = =
最新文章
- Wishart distribution
- 多线程完成socket
- UWP/Win10新特性系列—App Service
- AsyncTask异步加载和Gson
- 130 个你需要了解的 vim 命令
- spring mvc实现登录+异常
- php 判断 xml 里是否存在某个节点
- 纯css3代码写下拉菜单效果
- Chrome 开发者工具的Timeline和Profiles提高Web应用程序的性能
- ASP.NET MVC 4 SimpleMembership Provider (1)
- CommonsChunkPlugin的一些总结
- Java,js,多条件split字符分割
- C++不确定行为
- [补档][Jxoi2012] 奇怪的道路
- udev example -- detect usb and write test file
- com.opensymphony.xwork2.config.ConfigurationManager.addConfigurationProvider
- UVa 10055
- 场景调研 persona
- 虚拟机 ubuntu 16.04
- 两个有序数组求中位数log(m+n)复杂度