HtmlCleaner cleaner = new HtmlCleaner();     

      TagNode node = cleaner.clean(new URL("http://finance.sina.com.cn/money/nmetal/20091209/10157077895.shtml"));
//按tag取.
Object[] ns = node.getElementsByName("title", true); //标题 if(ns.length > 0) {
System.out.println("title="+((TagNode)ns[0]).getText());
}
// /html/body/div[2]/div[4]/div/div/div/div[2]/p
ns = node.evaluateXPath("//div[@class=\"blkContainerSblkCon\"]/p"); //选取class为指定blkContainerSblkCon的div下面的所有p标签
for (int i = 0; i < ns.length; i++) {
String in = cleaner.getInnerHtml((TagNode)ns[i]);
System.out.println("<p>"+in + "</p>");
}
String in = cleaner.getInnerHtml((TagNode)ns[0]);
System.out.println(in); System.out.println(((TagNode)ns[0]).getText());

  

   HtmlCleaner cleaner = new HtmlCleaner();
String url = "http://finance.sina.com.cn/nmetal/hjfx.html";
URL _url = new URL(url);
TagNode node = cleaner.clean(_url); //按tag取.
Object[] ns = node.getElementsByName("title", true); //标题 if(ns.length > 0) {
System.out.println("title="+((TagNode)ns[0]).getText());
} ns = node.evaluateXPath("//*[@class='Frame-Row3-01-C']/table[2]/tbody/tr/td/a"); //选取class为指定blkContainerSblkCon的div下面的所有p
for (int i = 0; i < ns.length; i++) { //取链接文本
// String in = cleaner.getInnerHtml((TagNode)ns[i]);
// System.out.println(in); //获取链接的
TagNode n = (TagNode) ns[i];
// System.out.println(n.getAttributeByName("href"));
System.out.println(new URL(_url,n.getAttributeByName("href")).toString());
}
// String in = cleaner.getInnerHtml((TagNode)ns[0]);
// System.out.println(in); // System.out.println(((TagNode)ns[0]).getText()); // System.out.println("ul/li:");
// //按xpath取
// ns = node.evaluateXPath("//div[@class='d_1']//li");
// for(Object on : ns) {
// TagNode n = (TagNode) on;
// System.out.println("\ttext="+n.getText());
// }
// System.out.println("a:");
// //按属性值取
// ns = node.getElementsByAttValue("name", "my_href", true, true);
// for(Object on : ns) {
// TagNode n = (TagNode) on;
// System.out.println("\thref="+n.getAttributeByName("href")+", text="+n.getText());
// }

本文转载于:http://gstarwd.iteye.com/blog/644502

xpath 参考教材:http://www.w3school.com.cn/xpath/xpath_syntax.asp

最新文章

  1. 《简单的自定义DropDatePicker》-- UIPopoverController 和 代理 以及 Block 实现。
  2. vmware workstation安装 Mosrosoft Runtime DLL安装程序未能完成安装
  3. 关于三层架构与MVC的一些理解
  4. webserver[实时查询当天的天气情况]
  5. Tips collection of iOS development
  6. 【iCore3 双核心板】例程三十四:U_DISK_IAP_ARM实验——更新升级STM32
  7. NSString的截取
  8. Python 日期和时间
  9. &lt; java.lang &gt;-- String字符串
  10. 在win2008中配置ServU
  11. SignalR及时通知功能
  12. [置顶] [Android源码分析]inquiry result引起的上层变化分析
  13. sizeof用法研究
  14. Class.forName() 初始化、Thread.currentThread().getContextClassLoader().getResourceAsStream
  15. 【面向对象设计原则】之接口隔离原则(ISP)
  16. 【CSS】font样式简写(转)- 不是很建议简写
  17. C Primer Plus 第6章 C控制语句:循环 编程练习
  18. WiFi-ESP8266入门http(2-1)文件系统-复杂结构的网页
  19. Allegro PCB Design GXL (legacy) 刷新PCB封装(Package)中的焊盘(Padstack)
  20. iOS之加载Gif图片

热门文章

  1. shutil库文件的操作
  2. 可持化永久树 的 STL ( rope )
  3. POJ 2451 Uyuw&#39;s Concert (半平面交)
  4. Django框架(九)—— 单表增删改查,在Python脚本中调用Django环境
  5. 真实的『REM』手机屏幕适配
  6. 一份完整的 Java 成神路线图,值得收藏!
  7. 豆瓣图书Top250
  8. JavaScript小实例-文本循环变色效果
  9. windows server 2012 安装完只有命令行
  10. 判断有向无环图(DAG)