Java网络爬虫 - 一个简单的爬虫例子
2024-08-29 06:26:17
WikiScraper.java
package master.haku.scrape; import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import java.net.*;
import java.io.*; public class WikiScraper {
public static void main(String[] args) {
scrapeTopic("/wiki/Python");
} public static void scrapeTopic(String url) {
String html = getUrl("https://en.wikipedia.org" + url);
Document doc = Jsoup.parse(html);
String contentText = doc.select("#mw-content-text > p").first().text();
System.out.println(contentText);
} public static String getUrl(String url) {
URL urlObj = null;
try {
urlObj = new URL(url);
} catch (MalformedURLException e) {
System.out.println("The url was malformed!");
return "";
} URLConnection urlCon = null;
BufferedReader in = null;
String outputText = ""; try {
urlCon = urlObj.openConnection();
in = new BufferedReader(new InputStreamReader(urlCon.getInputStream()));
String line = "";
while ((line = in.readLine()) != null) {
outputText += line;
}
in.close();
} catch (IOException e) {
System.out.println("There was an error connecting to the URL");
return "";
} return outputText;
}
}
运行结果:
A python is a constricting snake belonging to the Python (genus), or, more generally, any snake in the family Pythonidae (containing the Python genus).
最新文章
- Android 摇一摇功能的注意事项
- python学习之——splinter介绍
- JS 获取浏览器和屏幕宽高等信息代码
- Golang学习 - strconv 包
- 【剑指Offer学习】【面试题19 :二叉树的镜像】
- 【Tools】Chrome 控制台不完全指南
- 调试器带参数调试(OD,EDB)
- 【C#】委托与事件
- 于CentOS 6 安装 Wordpress
- DS博客作业01--日期抽象数据类型设计与实现
- 回顾django内容
- javascript获取时间戳
- k8s搭建问题(1)--OOMKilled
- springMVC数据模型model,modelmap,map,@ModelAttribute的相互关系
- 001.KVM介绍
- springboot之异步调用@Async
- 编程之法section II: 2.2 和为定值的两个数
- 个人整理的一些iOS Entitlements
- linux防火墙(一)—— iptables架构介绍
- IOS 10 微信 ajax readystate=0 status=0 解决方法
热门文章
- Unity 2D游戏开发教程之游戏中精灵的跳跃状态
- ddms 安卓录制
- zend studio10 创建重复project from remote server
- [CodeForces-440D]Berland Federalization
- spark1.0.0 mllib机器学习库使用初探
- 实用在线小工具 -- Google URL Shortener
- Codeforces Beta Round #4 (Div. 2 Only) B. Before an Exam dp
- HDU 5298 Solid Geometry Homework 暴力
- mysqldump之字符集问题解决
- 复制到剪切板js代码(转)