用urllib库几行代码实现最简单爬虫
2024-10-19 09:28:16
"""
使用urllib.request()请求一个网页内容,并且把内容打印出来。
"""
from urllib import request
import chardet
if __name__ == '__main__':
# 有的网站url使用不了
url = "https://www.cnblogs.com/gshelldon/p/13332798.html"
# 打开url把内容赋值给rsp
rsp = request.urlopen(url)
# 存取到内存当中是bytes流,使用read方法把rsp的内容读取出来,赋值给变量html。
html = rsp.read()
# 使用decode解码成我们能够看懂的格式。
# print(type(html)) # 查看返回的格式
html = html.decode('utf-8') # 默认的是utf-8
print(html)
返回的内容是html格式的文本
D:\ProgramData\Anaconda3\envs\spider\python.exe D:/爬虫/v1-最简单的爬虫.py
<!DOCTYPE html>
<html lang="zh-cn">
<head>
<meta charset="utf-8" />
<meta name="viewport" content="width=device-width, initial-scale=1.0" />
<meta name="referrer" content="origin" />
<meta property="og:description" content="nginx 动静分离 不需要运维来做,开发做的。 动态请求:该请求会调用数据库中的数据。 静态请求:用户请求不会调用数据库。 动态页面:后端开发写的需要调用数据库的页面(python、java、C、p" />
<meta http-equiv="Cache-Control" content="no-transform" />
省略。。。。。。。
最新文章
- POCO浅探
- JQuery mobile 实例 api
- vagrant 错误记录
- 更新 requests 包之后报 has no attribute &#39;__getitem__&#39; 的错
- (九)groupByKey,reduceByKey,sortByKey算子-Java&;Python版Spark
- javascript之事件详解2
- 接触.net5年了,感觉自己的知识面很狭隘。
- MFC中对话框的工具栏的使用
- nexus4/5/6/7/9/10设备谷歌安卓5.1.1系统底包下载
- UML基础知识
- 如何配置和使用Tomcat访问日志
- Http方式获取网络数据
- tju_4147 kd树+最小生成树
- 【BZOJ2959】长跑 (LCT+并查集)
- DES
- hibernate多对多 一对多 及简单入门 主键生成策略
- mysql,Jdbc工具类,只需一条sql实现简单查询
- learning ddr write leveling
- Windows7安装 nginx+php 后访问.php文件出现 “No input file specified.” 的解决办法
- hibernate在Oracle中插入数据,默认字段被设置为null的问题解决
热门文章
- SpringBoot整合Swagger2及使用
- 201871030125-王芬 实验二 个人项目-《D{0-1}问题》软件项目报告
- Dynamics CRM安装教程八:Claims-based认证-外部访问配置(IFD配置)
- 通过Dapr实现一个简单的基于.net的微服务电商系统(四)——一步一步教你如何撸Dapr之订阅发布
- SHA256sum系列命令检测文件完整性
- 黑马 - poi Excel
- 利用Apache部署静态网站(二)
- php和mysql数据库防SQL注入的有效解决办法
- hdu4791水题
- DVWA之Command injection(命令执行漏洞)