thr_msgs = soup.find_all('div',class_=re.compile('msg')) for i in thr_msgs: print(i) first = i.select('em:nth-of-type(1)') print(first) >>> <div class='\"msg\"'><em>佛山</em><em>1-3年</em><em>大专</em&g
前面我讲述过如何通过BeautifulSoup获取维基百科的消息盒,同样可以通过Spider获取网站内容,最近学习了Selenium+Phantomjs后,准备利用它们获取百度百科的旅游景点消息盒(InfoBox),这也是毕业设计实体对齐和属性的对齐的语料库前期准备工作.希望文章对你有所帮助~ 源代码 # coding=utf-8 """ Created on 2015-09-04 @author: Eastmount """ import ti