批量检测URL中的关键词,并且将不含有关键词的URL输出到txt文件当中
2024-10-21 11:59:43
编写代码时遇到的问题
- 写入txt(一开始忘记了tuple类型需要转换为str)
- 处理逻辑(一开始并没有将 body与url绑定到一起,所以或返回所有的url)
- 关闭太早(这点是有点疑惑的,难道不用关闭文本么?加了一个f.close就错了)
- 匹配时忘记了大小写
import requests
from bs4 import BeautifulSoup
import pandas as pd
from openpyxl import Workbook
import concurrent.futures # 读取 .txt 文件中的 URL
with open("urls.txt", "r") as file:
urls = file.read().splitlines() # 存储 URL
data = [] def detect_cvss(url):
try:
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
body = soup.find("body").text
tuple=(url,body)
if "xxxx" not in tuple[1]:
print(tuple[0])
return (tuple[0])
except:
return None with concurrent.futures.ThreadPoolExecutor(max_workers=20) as executor:
futures = [executor.submit(detect_cvss, url) for url in urls] for future in concurrent.futures.as_completed(futures):
result = future.result()
if result:
data.append(result) #将 URL 和 title 写入 txt 文件
with open("no_xxxx.txt", 'w') as f:
for i in data:
f.write(i + '\n')
f.close();
最新文章
- java动手动脑和课后实验型问题
- UWP的拖拽功能
- scala + intellij idea 环境搭建及编译、打包
- linux u-boot跟踪方法总结
- SQL SERVER 服务启动后停止,某些服务由其它服务或程序使用时将自动停止
- linux vmstat 系统结果说明
- ImageMagick远程命令执行工具检测工具
- bootstrap--双日历插件
- Aviary 滤镜 教程 照片编辑器
- Java系列--第二篇 基于Maven的Android开发HelloAndroidWorld
- JDWP
- Chapter 2 Open Book——31
- 日志框架SLF4J
- UVAlive 3708 Graveyard(最优化问题)
- 单选、多选框根据value值设置选中
- ACM 排列2
- (一)校园信息通微信小程序从前端到后台整和笔记
- jar包通过exe4j打包成exe可执行文件
- mysql 取名会涉及到关键字 的问题
- opencv: 角点检测源码分析;