1.简介

  jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。实际开发中,利用HttpClient来抓取网页内容,然后利用 jsoup来解析。文档可参考:http://www.open-open.com/jsoup/

2.maven依赖

<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.10.3</version>
</dependency>

3.HelloWorld代码实现

  获取 http://www.cnblogs.com/xbq8080 的标题(title) 以及 座右铭

    public static void main(String[] args) throws Exception{
// 创建httpClient实例
CloseableHttpClient httpClient = HttpClients.createDefault();
// 创建httpGet实例
HttpGet httpGet = new HttpGet("http://www.cnblogs.com");
httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:45.0) Gecko/20100101 Firefox/45.0");
CloseableHttpResponse response = httpClient.execute(httpGet);
String content = null;
if(response != null){
HttpEntity entity = response.getEntity();
content = EntityUtils.toString(entity, "UTF-8"); // 获取网页内容 Document document = Jsoup.parse(content); // 解析网页,得到文档对象 Elements elements = document.getElementsByTag("title"); // 获取 tag为 title的DOM元素
Element element = elements.get(0); // 获取第一个DOM元素
String title = element.text(); // 返回元素的文本
System.out.println("博客园的标题:" + title); Element element2 = document.getElementById("site_nav_top");
String navTop = element2.text();
System.out.println("座右铭:" + navTop);
}
if(response != null){
response.close();
}
if(httpClient != null){
httpClient.close();
}
}

4.运行结果:

  博客园的标题:博客园 - 开发者的网上家园

  座右铭:代码改变世界

5.Jsoup学习地址

  开源博客系统-Jsoup

最新文章

  1. hadoop 笔记(hbase)
  2. 操作系统开发系列—13.b.进程之丰富中断处理程序
  3. Chrome控制台 JS调试的一些小技巧
  4. PHP基础 之 基本数据类型练习
  5. C# SMTP邮件发送 分类: C# 2014-07-13 19:10 333人阅读 评论(1) 收藏
  6. jquery(1.3.2)&lt;--json--&gt;spring(3.0)
  7. UTF-8 GBK UTF8 GB2312 之间的区别和关系
  8. mongodb学习一
  9. JAVA中的值传递和引用传递问题
  10. Coursera台大机器学习技法课程笔记10-Random forest
  11. ExtJS动态设置表头
  12. 【Java基础系列】Java IO系统
  13. 爬虫6:pyquery库
  14. 高通msm mdm 总结
  15. 多线程-Thread与Runnable源码分析
  16. 一个我用来上传代码到Github的 Shell 脚本
  17. SQL2008删除大量数据
  18. WiFi调试手机
  19. warning: push.default is unset; its implicit value is changing in Git 2.0 from &#39;matching&#39; to &#39;simple&#39;.
  20. Discrete Function(简单数学题)

热门文章

  1. 从Java开发者的视角解释JavaScript
  2. android批量插入数据效率对比
  3. Selenium常用操作汇总二——如何得到弹出窗口
  4. java 5.0引入的新特性-枚举
  5. 批量kill 进程
  6. googletest进行单元测试(使用cmake编译)
  7. C#基础---------------C#正则表达式2
  8. update-alternatives常用命令(转自http://blog.csdn.net/baggio1006/article/details/6338623)
  9. Linux下的rename命令
  10. perl 模块的创建以及制定perl 模块的路径