不知不觉毕业快一年了,工作逐渐趋于平淡,从一个对编程了解得很少甚至完全一窍不通的小小菜,终于成为了一枚小菜,总而言之,算是入了IT这一行。这大半年马马虎虎做了三个项目,有安卓项目,有Java Web项目,也有Asp.Net项目,接触到的东西太多了,自然感觉自己要学的东西越多,现在对学习方向好迷茫啊。今天人品也不行,进地铁的时候,手机被小心被扒了,说多了都是泪啊。就在这愤恨和无聊之际,开始了我的第一篇博客.

  最近跟我同学新成立了个工作室.需要用到爬虫技术,由于他们都没做过,而我以前做过一些简单的爬虫技术(高中的时候喜欢看小说,所以自己做了个爬虫下小说玩)。以前的实现方式是直接用URLConnection发送POST请求获取整个网页内容,然后自己写正则表达式去获取自己需要的内容,工作量有点大。于是在网上搜搜看,发现Jsoup还不错,跟Jquery的API相差无几。花了几个小时看了看API和敲了几个Demo就开始实践了。这里我们以糗事百科为例。

  首先,我们打开IE进入糗事百科的首页,选择检查元素。调整下格式,图如下(QQ截图,请尽情吐槽⊙▂⊙):                            

  在上面的三张图中,我们发现糗事百科的每一段内容都是包含在一个class="block untagged mb15 bs2"的div中的,而每个div中又包含了4个子div,其中class="author"的div用于显示内容发布者的信息(包括头像和昵称),class="content"的div主要用于显示图片配文,class="thumb"主要是用于显示图片。至于最后一个class="bar"的div则是用于显示一些媒体分享操作栏。

  知道了上面这些就好办了。下面大家就可以敲代码啦。`(*∩_∩*)′。

  

最新文章

  1. <<< PermGen space溢出解决方法
  2. 用MSoffice里的绘图工具
  3. IBatisNet Demo (升级from 1.1)
  4. SQL中DATEPART返回日期单独部分
  5. 远程登录 Windows server 2008 黑屏
  6. [个人翻译]Redis 集群教程(下)
  7. uoj#228 基础数据结构练习题
  8. Can you solve this equation?
  9. 微信公众平台开发,图文回复、access_token生成调用、以及微信SDK的实现(2)
  10. Docker_部署jenkins(dockerfile实现)
  11. leetcode刷题笔记342 4的幂
  12. matlab 曲线拟合小记
  13. [转]angular2: including thirdparty js scripts in component
  14. cf1108e 线段树区间更新+扫描线
  15. 动态 hover 使用变相使用
  16. PHP中的Trait方法
  17. 网络之XML解析-原生
  18. Ueditor结合七牛云存储上传图片、附件和图片在线管理的实现和最新更新
  19. composer 安装扩展失败的决绝方法
  20. VHDL 中的数据转换函数

热门文章

  1. LeetCode OJ--Rotate Image
  2. Echarts-之显示百分比
  3. js拖拽效果的实现
  4. Codeforces Gym101502 I.Move Between Numbers-最短路(Dijkstra优先队列版和数组版)
  5. 洛谷——P1988 火炬
  6. Codeforces Gym 100338B Spam Filter 字符串哈希+贝叶斯公式
  7. Java判断语句中判断条件的执行顺序
  8. 编写Web Serviceclient訪问www.webxml.com.cn提供的服务
  9. centos 升级内核失败回救
  10. mysql freeing items 状态