Java+Jsoup实现网页内容抓取
不知不觉毕业快一年了,工作逐渐趋于平淡,从一个对编程了解得很少甚至完全一窍不通的小小菜,终于成为了一枚小菜,总而言之,算是入了IT这一行。这大半年马马虎虎做了三个项目,有安卓项目,有Java Web项目,也有Asp.Net项目,接触到的东西太多了,自然感觉自己要学的东西越多,现在对学习方向好迷茫啊。今天人品也不行,进地铁的时候,手机被小心被扒了,说多了都是泪啊。就在这愤恨和无聊之际,开始了我的第一篇博客.
最近跟我同学新成立了个工作室.需要用到爬虫技术,由于他们都没做过,而我以前做过一些简单的爬虫技术(高中的时候喜欢看小说,所以自己做了个爬虫下小说玩)。以前的实现方式是直接用URLConnection发送POST请求获取整个网页内容,然后自己写正则表达式去获取自己需要的内容,工作量有点大。于是在网上搜搜看,发现Jsoup还不错,跟Jquery的API相差无几。花了几个小时看了看API和敲了几个Demo就开始实践了。这里我们以糗事百科为例。
首先,我们打开IE进入糗事百科的首页,选择检查元素。调整下格式,图如下(QQ截图,请尽情吐槽⊙▂⊙):
在上面的三张图中,我们发现糗事百科的每一段内容都是包含在一个class="block untagged mb15 bs2"的div中的,而每个div中又包含了4个子div,其中class="author"的div用于显示内容发布者的信息(包括头像和昵称),class="content"的div主要用于显示图片配文,class="thumb"主要是用于显示图片。至于最后一个class="bar"的div则是用于显示一些媒体分享操作栏。
知道了上面这些就好办了。下面大家就可以敲代码啦。`(*∩_∩*)′。
最新文章
- <;<;<; PermGen space溢出解决方法
- 用MSoffice里的绘图工具
- IBatisNet Demo (升级from 1.1)
- SQL中DATEPART返回日期单独部分
- 远程登录 Windows server 2008 黑屏
- [个人翻译]Redis 集群教程(下)
- uoj#228 基础数据结构练习题
- Can you solve this equation?
- 微信公众平台开发,图文回复、access_token生成调用、以及微信SDK的实现(2)
- Docker_部署jenkins(dockerfile实现)
- leetcode刷题笔记342 4的幂
- matlab 曲线拟合小记
- [转]angular2: including thirdparty js scripts in component
- cf1108e 线段树区间更新+扫描线
- 动态 hover 使用变相使用
- PHP中的Trait方法
- 网络之XML解析-原生
- Ueditor结合七牛云存储上传图片、附件和图片在线管理的实现和最新更新
- composer 安装扩展失败的决绝方法
- VHDL 中的数据转换函数
热门文章
- LeetCode OJ--Rotate Image
- Echarts-之显示百分比
- js拖拽效果的实现
- Codeforces Gym101502 I.Move Between Numbers-最短路(Dijkstra优先队列版和数组版)
- 洛谷——P1988 火炬
- Codeforces Gym 100338B Spam Filter 字符串哈希+贝叶斯公式
- Java判断语句中判断条件的执行顺序
- 编写Web Serviceclient訪问www.webxml.com.cn提供的服务
- centos 升级内核失败回救
- mysql freeing items 状态