import urllib.request
import ssl
import re
import os
#博客地址:https://blog.csdn.net/qq_36374896 def writeFile1Bytes(htmlBytes,toPath):
with open(toPath,"wb") as f:
f.write(htmlBytes)
def writeFile1Str(htmlBytes,toPath):
with open(toPath,"wb") as f:
f.write(htmlBytes) def getHtmlBytes(url):
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36"
}
req = urllib.request.Request(url, headers=headers)
context = ssl._create_unverified_context()
response = urllib.request.urlopen(req,context=context)
return response.read() def qqCrawler(url, toPath):
htmlBytes = getHtmlBytes(url)
# writeFile1Bytes(htmlBytes,r"C:\Users\admin\Desktop\360学习\爬虫\image\qq1.html")
# writeFile1Str(htmlBytes,r"C:\Users\admin\Desktop\360学习\爬虫\image\qq2.txt")
htmlStr = str(htmlBytes) pat = r"[1-9]\d{4,9}"
re_qq= re.compile(pat)
qqsList = re_qq.findall(htmlStr) qqsList = list(set(qqsList))
print(qqsList)
print(len(qqsList)) url="http://tieba.baidu.com/p/5471533241?traceid="
toPath=r"C:\Users\admin\Desktop\360学习\爬虫\image\qq.txt"
qqCrawler(url,toPath)

代码年代久远,注释当时没写,现在懒得写了

最新文章

  1. Hive介绍、安装(转)
  2. apk签名
  3. hdu 5272 Dylans loves numbers
  4. android开发,assets下面的资源文件不会变化/改动
  5. spoj 2
  6. SSH整合笔记
  7. 常用的CSS清除浮动的方法优缺点分析(个人学习笔记)
  8. Cidr计算
  9. Qt属性系统
  10. 刚下载的几个开源的Android项目
  11. Leetcode解题-树(5.0.0)基础类
  12. 【莫比乌斯反演】BZOJ2005 [NOI2010]能量采集
  13. Golang学习:sublime text3配置golang环境
  14. __x__(9)0906第三天__常见的标签
  15. USB接口禁用与启用
  16. 转载 Flask中客户端 - 服务器 - web应用程序 是如何处理request生成response的?
  17. Some Useful Resources for the Future Usage
  18. POJ1013 称硬币
  19. 关于Unity中的光照(五)
  20. SQL Server2008安装后1433端口没监听问题

热门文章

  1. nodejs并行无关联
  2. Ceres 四重奏 之 入门简介
  3. 【Azure 应用服务】应用代码需要客户端证书进行验证,部署到App Service后,如何配置让客户端携带证书呢?
  4. [LeetCode]66.加一(Java)
  5. 通过PEB寻找函数地址
  6. suse 12 二进制部署 Kubernetets 1.19.7 - 第01章 - 创建CA证书和kubectl集群管理命令
  7. 【自动化测试框架】pytest和unitttest你知道多少?区别在哪?该用哪个?
  8. 使用第三方插件pagination在页面实现分页功能
  9. python爬虫:爬虫的简单介绍及requests模块的简单使用
  10. github push时提示Username for 'https://github.com' 解决办法