python爬取网络中的QQ号码
2024-09-02 19:22:06
import urllib.request
import ssl
import re
import os
#博客地址:https://blog.csdn.net/qq_36374896
def writeFile1Bytes(htmlBytes,toPath):
with open(toPath,"wb") as f:
f.write(htmlBytes)
def writeFile1Str(htmlBytes,toPath):
with open(toPath,"wb") as f:
f.write(htmlBytes)
def getHtmlBytes(url):
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36"
}
req = urllib.request.Request(url, headers=headers)
context = ssl._create_unverified_context()
response = urllib.request.urlopen(req,context=context)
return response.read()
def qqCrawler(url, toPath):
htmlBytes = getHtmlBytes(url)
# writeFile1Bytes(htmlBytes,r"C:\Users\admin\Desktop\360学习\爬虫\image\qq1.html")
# writeFile1Str(htmlBytes,r"C:\Users\admin\Desktop\360学习\爬虫\image\qq2.txt")
htmlStr = str(htmlBytes)
pat = r"[1-9]\d{4,9}"
re_qq= re.compile(pat)
qqsList = re_qq.findall(htmlStr)
qqsList = list(set(qqsList))
print(qqsList)
print(len(qqsList))
url="http://tieba.baidu.com/p/5471533241?traceid="
toPath=r"C:\Users\admin\Desktop\360学习\爬虫\image\qq.txt"
qqCrawler(url,toPath)
代码年代久远,注释当时没写,现在懒得写了
最新文章
- Hive介绍、安装(转)
- apk签名
- hdu 5272 Dylans loves numbers
- android开发,assets下面的资源文件不会变化/改动
- spoj 2
- SSH整合笔记
- 常用的CSS清除浮动的方法优缺点分析(个人学习笔记)
- Cidr计算
- Qt属性系统
- 刚下载的几个开源的Android项目
- Leetcode解题-树(5.0.0)基础类
- 【莫比乌斯反演】BZOJ2005 [NOI2010]能量采集
- Golang学习:sublime text3配置golang环境
- __x__(9)0906第三天__常见的标签
- USB接口禁用与启用
- 转载 Flask中客户端 - 服务器 - web应用程序 是如何处理request生成response的?
- Some Useful Resources for the Future Usage
- POJ1013 称硬币
- 关于Unity中的光照(五)
- SQL Server2008安装后1433端口没监听问题
热门文章
- nodejs并行无关联
- Ceres 四重奏 之 入门简介
- 【Azure 应用服务】应用代码需要客户端证书进行验证,部署到App Service后,如何配置让客户端携带证书呢?
- [LeetCode]66.加一(Java)
- 通过PEB寻找函数地址
- suse 12 二进制部署 Kubernetets 1.19.7 - 第01章 - 创建CA证书和kubectl集群管理命令
- 【自动化测试框架】pytest和unitttest你知道多少?区别在哪?该用哪个?
- 使用第三方插件pagination在页面实现分页功能
- python爬虫:爬虫的简单介绍及requests模块的简单使用
- github push时提示Username for 'https://github.com' 解决办法