http://www.open-open.com/jsoup/parsing-a-document.htm

jsoup: Java HTML Parser

jsoup is a Java library for working with real-world HTML. It provides a very convenient API for extracting and manipulating data, using the best of DOM, CSS, and jquery-like methods.

jsoup implements the WHATWG HTML5 specification, and parses HTML to the same DOM as modern browsers do.

  • scrape and parse HTML from a URL, file, or string
  • find and extract data, using DOM traversal or CSS selectors
  • manipulate the HTML elements, attributes, and text
  • clean user-submitted content against a safe white-list, to prevent XSS attacks
  • output tidy HTML

jsoup is designed to deal with all varieties of HTML found in the wild; from pristine and validating, to invalid tag-soup; jsoup will create a sensible parse tree.

Example

Fetch the Wikipedia homepage, parse it to a DOM, and select the headlines from theIn the news section into a list of Elements (online sample):

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");

最新文章

  1. window下关闭nginx
  2. ASP.NET Web API中的参数绑定总结
  3. Spring的自定义标签
  4. ListView Optimization
  5. 快速同步mysql数据到redis中
  6. 使用NuGet安装EntityFramework4.2
  7. (转)ThinkPHP自定义标签
  8. hadoop 常用命令
  9. InsertSort 插入排序
  10. 一个简单的Spring AOP例子
  11. 给VIM和Terminal配色:Solarized
  12. 百度推送-sitemap-使用playframework框架实现-java
  13. windows10企业版怎么关闭自动更新
  14. hdu1249 三角形分割平面---递推
  15. 【翻译】WhatsApp 加密概述(技术白皮书)
  16. springBoot(3)---目录结构,文件上传
  17. Spring @RequestParam、@RequestBody和@ModelAttribute区别
  18. java 基础之--传统网络编程
  19. 设置tabBar、使用第三方插件和自定义组件使用简单实例
  20. 安装itunes时提示不能删除旧版本的apple应用程序支持

热门文章

  1. 分享最近写的一个存储过程 SOLVE_LOCK
  2. 2014年10月16号--for语句实例
  3. 扩展欧几里得算法(extended Euclidean algorithm)的一个常犯错误
  4. 【转载】C++应用引用计数技术
  5. PHP表单
  6. php 购物车完整实现代码
  7. MySql拾遗
  8. Tornado 的教材
  9. emmet插件的导入与实用
  10. OC面向对象的三大特征