今天教大家用元件组合,做一个网页图片爬虫。

需要用到的元件:循环控制器+计数器+xpath提前器+函数嵌套+beanshell代码

首先我们确定一下要爬取的图片网站:https://dp.pconline.com.cn/list/all_t5.html

通过F12观察一下他的html代码,发现这些图片都是通过href链接跳转之后,访问的src图片

那么我们可以考虑先对网站发起请求,通过xpath表达式提取到图片的src,也就是图片的访问链接

然后再通过xpath提取出这些图片的标题

因为考虑到每一组图片和标题都是一一对应的,因此这里提取出来的匹配数字也可以认为是一一对应。

在dubug中我们可以看到,url和标题都提取了50个,且一一对应。

下面我们添加一个循环控制器,循环次数就是debug中的matchNr

在循环控制器中添加一个计数器,用来计算需要执行爬取的次数

添加一个http请求,在循环控制器下,循环对debug中获取到的url发起请求,同时遍历写入图片标题

每一次发起请求之后,都把请求获取的图片通过代码写入本地,同时遍历写入图片名称

执行脚本观察响应结果,观察本地文件写入结果

友情提示:这一套爬虫脚本,摒弃了以往通过foreach控制器遍历进行爬虫的方法。转而通过函数嵌套的方式,同步遍历多个参数进行文件写入。难点就在于函数嵌套遍历的理解和xpath元素定位,希望大家好好研究,有问题可以和我进行探讨!

☞点击这里,加入QQ群

可以添加微信:14751700162
或者联系QQ:1144890271

只需要分享博客任意两篇文章,截图通过以上任意方式联系,即可获取最新编写的《jmeter接口自动化与性能测试实战试读版》

扫描二维码关注我们的公众号,随时获取最新文章

我们专注于jmeter的接口自动化和性能专题研究,如果您在学习过程中遇到了难题,请及时联系我们,将给您一个满意的答案!

最新文章

  1. xcode下载
  2. c#实现万年历示例分享 万年历农历查询
  3. iBoxDB的学习与使用
  4. 关于mvc3.0RadioButtonFor的使用
  5. PHP magic_quotes_gpc的详细使用方法
  6. 【转】android UI进阶之实现listview中checkbox的多选与记录--不错
  7. M - 约会安排 - hdu 4553
  8. 软工+C(2017第6期) 最近发展区/脚手架
  9. document.forms[].submit()
  10. Android几个比较有用的插件
  11. 顺序栈的基本操作中Push压入后的- S.top = S.base + S.stacksize; 作用
  12. [Python设计模式] 第19章 分公司=部门?——组合模式
  13. Failure to transfer org.apache.maven.plugins:maven-surefire-plugin:pom:2.12.4
  14. Linux系统编程——信号
  15. P4994 终于结束的起点
  16. Java学习——用户电话输入显示
  17. Metabase在Windows下的开发环境配置
  18. Redis学习之路(006)- Redis学习手册(Hashes数据类型)
  19. R语言学习——数据分析
  20. Fiddler基础教程

热门文章

  1. AngularJS $http用法总结
  2. Android存储及getCacheDir()、getFilesDir()、getExternalFilesDir()、getExternalCacheDir()区别
  3. C/C++ 关于数组和指针的总结
  4. linux绝大部分命令集合(自己需要的时候方便查找)
  5. nodejs 删除空文件
  6. H3C 802.11 MAC层工作原理
  7. quartz——JobExecutionContext和JobDataMap
  8. 如何进行SQL注入攻击?
  9. javascript中 typeof和instanceof的区别
  10. spring cloud (七) Config server基于svn配置