python爬虫爬取ip记录网站信息并存入数据库
2024-08-27 14:36:20
import requests
import re
import pymysql
#10页 仔细观察路由
db = pymysql.connect("localhost","root","root","testdb" )
cursor = db.cursor() for i in range(1,10):
url = 'http://*******8****'
url=url+'index_'+str(i)+'.html'
response = requests.get(url)
HTML = response.text
pattern= re.compile(r'(((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})(\.((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})){3})')
compile_1 = re.compile(r'\s+(\d{3,6})\s')
compile_2 = re.compile(r'\s+([\u4e00-\u9fa5]{1,9})\s?(?:省|新疆|内蒙古|市|县|区])')
# compile_4 = re.compile(r's+(\d{4}/\d{2}/\d{2}\s+\d{2}:\d{2}:\d{2})\s')
res2 = compile_2.findall(HTML)
res1 = compile_1.findall(HTML)
result = pattern.findall(HTML)
# res3 = compile_4.findall(HTML)
# print(res3,len(result))
for ip_ in result:
print(ip_[0])
sql = "INSERT INTO test (ip,port,place) VALUES ('%s','%s','%s')" %(ip_[0],res1[0],res2[0])
print(sql)
cursor.execute(sql)
db.close() # 使用cursor()方法获取操作游标
最新文章
- R 语言机器学习同步推进~
- SQL Server代理(12/12):多服务器管理
- Ros集成开发环境配置
- 【RabbitMQ】RabbitMQ在Windows的安装和简单的使用
- android学习者优秀网址推荐
- 浅析在QtWidget中自定义Model
- redmine发送邮件
- BZOJ2199: [Usaco2011 Jan]奶牛议会
- mysql添加用户权限
- http2.0
- MSSQL存储过程接收另一个存储过程返回列表
- Proactor 学习1
- php中上传图片,原生代码
- python 调用 java代码
- python基础之centos6.5 升级 python2.7, 安装pip, MySQLdb
- WPFのImage控件souce引入的方法总结
- copy 深浅复制
- curl 命令简介
- MyBatis Spring整合配置映射接口类与映射xml文件
- Java-JUC(十):线程按序交替执行