import java.io.File;
import java.io.FileOutputStream;
import java.io.InputStream;
import java.net.URL;
import java.net.URLConnection;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern; /***
* java抓取网络图片
* @author swinglife
*
*/
public class pimg { // 地址
private static final String URL = "http://www.csdn.net";
// 编码
private static final String ECODING = "UTF-8";
// 获取img标签正则
private static final String IMGURL_REG = "<img.*src=(.*?)[^>]*?>";
// 获取src路径的正则
private static final String IMGSRC_REG = "http:\"?(.*?)(\"|>|\\s+)"; public static void main(String[] args) throws Exception {
pimg cm = new pimg();
//获得html文本内容
String HTML = cm.getHTML(URL);
//获取图片标签
List<String> imgUrl = cm.getImageUrl(HTML);
//获取图片src地址
List<String> imgSrc = cm.getImageSrc(imgUrl);
//下载图片
cm.Download(imgSrc);
} /***
* 获取HTML内容
*
* @param url
* @return
* @throws Exception
*/
private String getHTML(String url) throws Exception {
URL uri = new URL(url);
URLConnection connection = uri.openConnection();
InputStream in = connection.getInputStream();
byte[] buf = new byte[1024];
int length = 0;
StringBuffer sb = new StringBuffer();
while ((length = in.read(buf, 0, buf.length)) > 0) {
sb.append(new String(buf, ECODING));
}
in.close();
return sb.toString();
} /***
* 获取ImageUrl地址
*
* @param HTML
* @return
*/
private List<String> getImageUrl(String HTML) {
Matcher matcher = Pattern.compile(IMGURL_REG).matcher(HTML);
List<String> listImgUrl = new ArrayList<String>();
while (matcher.find()) {
listImgUrl.add(matcher.group());
}
return listImgUrl;
} /***
* 获取ImageSrc地址
*
* @param listImageUrl
* @return
*/
private List<String> getImageSrc(List<String> listImageUrl) {
List<String> listImgSrc = new ArrayList<String>();
for (String image : listImageUrl) {
Matcher matcher = Pattern.compile(IMGSRC_REG).matcher(image);
while (matcher.find()) {
listImgSrc.add(matcher.group().substring(0, matcher.group().length() - 1));
}
}
return listImgSrc;
} /***
* 下载图片
*
* @param listImgSrc
*/
private void Download(List<String> listImgSrc) {
try {
for (String url : listImgSrc) {
String imageName = url.substring(url.lastIndexOf("/") + 1, url.length());
URL uri = new URL(url);
InputStream in = uri.openStream();
FileOutputStream fo = new FileOutputStream("C:/Users/tutu/Desktop/img/"+imageName"//自定义路径);// new File(imageName)相对绝对路径
                byte[] buf = new byte[1024];
int length = 0;
System.out.println("开始下载:" + url);
while ((length = in.read(buf, 0, buf.length)) != -1) {
fo.write(buf, 0, length);
}
in.close();
fo.close();
System.out.println(imageName + "下载完成");
}
} catch (Exception e) {
System.out.println("下载失败");
}
} }

最新文章

  1. python第15天
  2. linux引导流程
  3. Asp.net MVC 学习系列(一)序
  4. CK方程
  5. for语句中声明变量
  6. HeapAlloc、GlobalAlloc和new等内存分配有什么区别么?
  7. 为Delphi程序增加UAC功能(管理员身份运行exe)
  8. 洛谷 P1093 奖学金
  9. Android应用开发学习之启动另外一个Activity
  10. sysctl: command not found
  11. videojs设置播放点
  12. 【Electron】Electron开发入门(七):打开本地文件或者网页链接 and webview里操纵electron api
  13. 协议系列之IP协议
  14. urllib库
  15. Linux常用命令(三)查看当前计算机各方面信息
  16. 机器学习技法笔记:15 Matrix Factorization
  17. .Net MVC个人笔记
  18. java基础-day13
  19. IntelliJ IDEA(2018)安装详解
  20. State Threads 回调终结者

热门文章

  1. React Native填坑之旅 -- 回归小插曲
  2. 如何架构一个合适的企业API网关
  3. 用线性单元(LinearUnit)实现工资预测的Python3代码
  4. 内置函数值 -- chr() ord() -- 字符和ascii的转换
  5. 老司机教你在windows不用软件隐藏重要文件
  6. MinGW下简单编译FFmpeg
  7. 获取NVIDIA显卡的温度
  8. Java中的switch语句后面的控制表达式的数据类型
  9. 采用Global.asax的Application_BeginRequest事件过滤敏感字符
  10. CF370 D Memory and Scores