package WebSpider;

import java.io.BufferedReader;

import java.io.IOException;

import java.io.InputStreamReader;

import java.net.MalformedURLException;

import java.net.URL;

import java.nio.charset.Charset;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

/**

  • 网络爬虫
  • @author Vcanccc

/

public class WebSpiderTest {

/
*

* 获得urlStr对应网络内容

* @param urlStr

* @return

*/

public static String getURLContent(String urlStr, String charset){

StringBuilder sb = new StringBuilder();

try {

URL url = new URL(urlStr);

BufferedReader reader = new BufferedReader(new InputStreamReader(url.openStream(),Charset.forName(charset)));

String temp = "";

while((temp = reader.readLine()) != null)

{

sb.append(temp);

}

} catch (MalformedURLException e) {

e.printStackTrace();

} catch (IOException e) {

e.printStackTrace();

}

return sb.toString();

}

public static void main(String[] args) {
String destStr = getURLContent("https://www.taobao.com","utf-8"); // Pattern p = Pattern.compile("<a[\\s\\S]+?</a>");
Pattern p = Pattern.compile("href=\"(.+?)\"");
Matcher m = p.matcher(destStr); while(m.find()){
System.out.println(m.group(1));
}
}

}

最新文章

  1. Storyboard中segue(转场)使用
  2. QT学习笔记6
  3. Oracle Database 11g For Windows7 旗舰版的安装
  4. apache 500错误
  5. python中thread模块中join函数
  6. LoadRunner11下载以及详细破解说明【最新】
  7. FFmpeg FFmpeg的使用及常用参数
  8. Linux目录初识
  9. 【ASP.NET基础】客户端、服务器端的数据验证 + CKEditer
  10. 重拾C,一天一点点_6
  11. angularjs directive and component 指令与组件 ( 1.5.0 以后 )
  12. MVC路由规则以及前后台获取Action、Controller、ID名方法
  13. Html 语法学习笔记二
  14. 在XAML代码中为节点树安装事件监听器
  15. spring通知执行的顺序
  16. Spring 使用javaconfig配置aop
  17. codeforces 984B Minesweeper
  18. java-方法重写的注意事项
  19. Py designer 小程序实现实例
  20. Codeforces Beta Round #52 (Div. 2)

热门文章

  1. python基础阶段练习题 拾英札记(1)
  2. Java多线程学习之wait、notify/notifyAll 详解
  3. [转载] hessian学习
  4. Json字符串解析原理、超大json对象的解析
  5. JavaScript数据可视化编程学习(二)Flotr2,雷达图
  6. Java compareTo() 方法
  7. sklearn的简单使用
  8. 02-线性结构4 Pop Sequence
  9. MongoDB中聚合工具Aggregate等的介绍与使用
  10. Java内存模型与Java线程实现原理