Java+Jsoup实现网页内容抓取

　　不知不觉毕业快一年了，工作逐渐趋于平淡，从一个对编程了解得很少甚至完全一窍不通的小小菜，终于成为了一枚小菜，总而言之，算是入了IT这一行。这大半年马马虎虎做了三个项目，有安卓项目，有Java Web项目，也有Asp.Net项目，接触到的东西太多了，自然感觉自己要学的东西越多，现在对学习方向好迷茫啊。今天人品也不行，进地铁的时候，手机被小心被扒了，说多了都是泪啊。就在这愤恨和无聊之际，开始了我的第一篇博客.

　　最近跟我同学新成立了个工作室.需要用到爬虫技术，由于他们都没做过，而我以前做过一些简单的爬虫技术（高中的时候喜欢看小说，所以自己做了个爬虫下小说玩）。以前的实现方式是直接用URLConnection发送POST请求获取整个网页内容，然后自己写正则表达式去获取自己需要的内容，工作量有点大。于是在网上搜搜看，发现Jsoup还不错，跟Jquery的API相差无几。花了几个小时看了看API和敲了几个Demo就开始实践了。这里我们以糗事百科为例。

　　首先，我们打开IE进入糗事百科的首页，选择检查元素。调整下格式，图如下（QQ截图，请尽情吐槽⊙▂⊙）：

　　在上面的三张图中，我们发现糗事百科的每一段内容都是包含在一个class="block untagged mb15 bs2"的div中的，而每个div中又包含了4个子div,其中class="author"的div用于显示内容发布者的信息（包括头像和昵称），class="content"的div主要用于显示图片配文，class="thumb"主要是用于显示图片。至于最后一个class="bar"的div则是用于显示一些媒体分享操作栏。

　　知道了上面这些就好办了。下面大家就可以敲代码啦。`(*∩_∩*)′。

巴特西

Java+Jsoup实现网页内容抓取

最新文章

热门文章