java爬虫简单实现
package WebSpider;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.nio.charset.Charset;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
/**
- 网络爬虫
- @author Vcanccc
/
public class WebSpiderTest {
/*
* 获得urlStr对应网络内容
* @param urlStr
* @return
*/
public static String getURLContent(String urlStr, String charset){
StringBuilder sb = new StringBuilder();
try {
URL url = new URL(urlStr);
BufferedReader reader = new BufferedReader(new InputStreamReader(url.openStream(),Charset.forName(charset)));
String temp = "";
while((temp = reader.readLine()) != null)
{
sb.append(temp);
}
} catch (MalformedURLException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
return sb.toString();
}
public static void main(String[] args) {
String destStr = getURLContent("https://www.taobao.com","utf-8");
// Pattern p = Pattern.compile("<a[\\s\\S]+?</a>");
Pattern p = Pattern.compile("href=\"(.+?)\"");
Matcher m = p.matcher(destStr);
while(m.find()){
System.out.println(m.group(1));
}
}
}
最新文章
- Storyboard中segue(转场)使用
- QT学习笔记6
- Oracle Database 11g For Windows7 旗舰版的安装
- apache 500错误
- python中thread模块中join函数
- LoadRunner11下载以及详细破解说明【最新】
- FFmpeg FFmpeg的使用及常用参数
- Linux目录初识
- 【ASP.NET基础】客户端、服务器端的数据验证 + CKEditer
- 重拾C,一天一点点_6
- angularjs directive and component 指令与组件 ( 1.5.0 以后 )
- MVC路由规则以及前后台获取Action、Controller、ID名方法
- Html 语法学习笔记二
- 在XAML代码中为节点树安装事件监听器
- spring通知执行的顺序
- Spring 使用javaconfig配置aop
- codeforces 984B Minesweeper
- java-方法重写的注意事项
- Py designer 小程序实现实例
- Codeforces Beta Round #52 (Div. 2)