扫描网站服务器真实IP的小脚本

 #!/usr/bin/env python

 # -*- coding: gbk -*-

 # -*- coding: utf_8 -*-

 # Date: 2015年9月11日

 # Author:蔚蓝行

 # 博客 http://www.cnblogs.com/duanv/

 import requests

 import threading

 import Levenshtein

 import re

 def scan(original_r,cip,ip_begin,original_match,header):

     ip=cip+str(ip_begin)

     try:

         r=requests.get('http://'+ip,headers=header,timeout=1)

     except Exception:

         pass

     else:

         if(r.status_code==original_r.status_code):

             if r.content==original_r.content:

                 print '---everything is match!---\n'+ip+'\n--------------------------\n\n\n',

             else:

                 if Levenshtein.ratio(r.text,original_r.text)>0.8:

                     match=re.search(r"<title>(.*?)</title>",r.content)

                     try:

                         if match==original_match or match.group()==original_match.group():

                             print '--matches>0.8-same title--\n'+ip+'\n--------------------------\n\n\n',

                         else:

                             print '--matches>0.8-diff title--\n'+ip+'\n--------------------------\n\n\n',

                     except Exception:

                         if match==None:

                             #扫描网页无标题

                             print '-matches>0.8-none title-s-\n'+ip+'\n--------------------------\n\n\n',

                         else:

                             #原始网页无标题

                             print '-matches>0.8-none title-o-\n'+ip+'\n--------------------------\n\n\n',

 def loop(original_r,cip,original_match,header):

     global ip_begin,ip_end,mutex

     while 1:

         mutex.acquire()

         if ip_begin > ip_end:

             mutex.release()

             break

         ip=ip_begin

         ip_begin += 1

         mutex.release()

         scan(original_r,cip,ip,original_match,header)

 def start():

     global ip_begin,ip_end,mutex

     ip_begin=1

     ip_end=254

     mutex=threading.Lock()

     cip='180.97.33.'

     address='www.baidu.com'

     #cip='220.181.136.'

     #address='www.219.me'

     header={"host":address,"Accept-Encoding":"identity","User-Agent":""}

     r=requests.get('http://'+address,headers=header)

     original_match=re.search(r"<title>(.*?)</title>",r.content)

     threads=[]

     for i in range(254):

         threads.append(threading.Thread(target=loop,args=(r,cip,original_match,header)))

     for t in threads:

         t.start()

 if __name__ == '__main__':

     start()

1,由于是多线程，输出时如果用print xxx会出现因线程抢占而造成的输出乱序，改用print xxx+‘\n’,可以不用线程锁并解决这个问题

2,扫描网段时请求头加上host:domain_name，可以解决单一IP对应多域名的问题

3,发送请求时将UA头置空，可以防止某些网站服务器返回内容过大和不完全相同的问题，提高效率。比如请求百度，有UA头情况下返回的页面内容相当大，而且不同IP返回内容有细微差别，脚本就会进行相似度比较，耗时巨大，如果置空UA头，请求响应内容就比较小，而且不同IP返回内容相同

巴特西

扫描网站服务器真实IP的小脚本

最新文章

热门文章