时间真的有点仓促,匆匆忙忙撸完这篇文章.

虽然今天是情人节,但还是要关心一下单身狗们,帮助他们俩脱单。

古人知己知彼,百战不殆.  好好去了解一下妹子们的内心想法,早日脱单!

这次我在一个某知名婚恋网站,抓取了一些数据,对她们的内心读白进行分析.

我这次筛选条件:女性,年龄20-30,学历本科,就这些条件.

3000条妹子内心读白词云如下:

放心好了,她们都是追求精神满足而非物质,大部分都是要找生命中的另一半,那她们的另一半会是你吗?

完整代码

# coding=utf-8

from selenium import webdriver
import time
from lxml import etree
import sys reload(sys)
sys.setdefaultencoding('utf-8') """
PEP8 Python编程规范
https://www.douban.com/note/134971609/ """
# 获取浏览器驱动
driver = webdriver.Firefox()
driver.maximize_window()
webUrl = 'http://www.lovewzly.com/jiaoyou.html'
driver.get(webUrl) # 等15秒,我来手动做一下筛选条件。,女性,21-30左右,学历本科,\
# 本来想通过js代码,来自动执行,但无奈对js真的不熟,也没有太多时间去整了,凑合看看.
time.sleep(15) """
下拉滚动条,从1开始到3结束 分2次加载完每页数据 """
while True:    for i in range(1, 20):
       height = 1000 * i  # 每次滑动20000像素
       strword = "window.scrollBy(0," + str(height) + ")"
       driver.execute_script(strword)
       time.sleep(3)        s = etree.HTML(driver.page_source)
       selectors = s.xpath('//*[@id="hibox"]/table/tbody/tr/td/div')        with open('内心读白.txt', 'a') as f:
           for selector in selectors:
               img = selector.xpath('./div[1]/img/@src')
               nick = selector.xpath('./div[2]/p[1]/span/text()')
               age = selector.xpath('./div[2]/p[2]/span[1]/text()')
               height = selector.xpath('./div[2]/p[2]/span[2]/text()')
               address = selector.xpath('./div[2]/p[2]/span[3]/text()')
               heart = selector.xpath('./div[2]/p[3]/text()')                img = img[0] if len(img) > 0 else ''
               nick = nick[0] if len(nick) > 0 else ''
               age = age[0] if len(age) > 0 else ''
               height = height[0] if len(height) > 0 else ''
               address = address[0] if len(address) > 0 else ''
               heart = heart[0] if len(heart) > 0 else ''
               print nick, age, height, address, heart, img
               f.write(heart)

生成词云的代码之前的文章里面有,这里就不展示了,自行前往查阅!

时间确实太仓促了,我想做一个更好一点,但时间不够了

下一步准备:

  • 我们可以输入自己的需求,然后进行筛选.
  • 把妹子照片,身高,籍贯,收入,学历,摘偶要求,都一起配上,并配上她们的链接,让单身狗们有目标的找妹子!哈哈
  • http://www.aibbt.com/a/18059.html

最新文章

  1. using语法糖详解 2015-01-06 17:45 50人阅读 评论(0) 收藏
  2. Entity Framework 代码先行
  3. git config 配置
  4. javascript学习总结(一):基础知识。
  5. HDU 1425 sort(堆排序/快排/最大堆/最小堆)
  6. 网页版电子表格控件tmlxSpreadsheet免费下载地址
  7. MYSQL 优化建议
  8. opencar二次开发常用代码
  9. Android学习之RecyclerView
  10. Tcl与Design Compiler (六)——基本的时序路径约束
  11. Java中的包含义
  12. 阅读MDN文档之层叠与继承(二)
  13. 【进阶1-3期】JavaScript深入之内存空间详细图解(转)
  14. 单片机成长之路(51基础篇) - 012 MCS-51单片机控制详解–TMOD T2MOD
  15. mysql条件查询-排除null ---oracle、mysql 区分总结
  16. Intel Code Challenge Final Round (Div. 1 + Div. 2, Combined) B. Batch Sort 暴力
  17. Java的WAR包文件分析
  18. [看门狗]基于Linux的嵌入式系统全程喂狗策略
  19. 添加jQuery方法解析url查询部分
  20. 使用WindowsService为宿主实装WCF 服务

热门文章

  1. Animation Physics and The Realization Of Animation In Browsers
  2. nodejs express搭建一个网站整理
  3. ionic2+Angular 使用HttpInterceptorService拦截器 统一处理数据请求
  4. Navicat的使用
  5. Go语言获取命令行参数
  6. egametang启动配置
  7. 隱藏在素數規律中的Pi -- BZOJ1041解題報告
  8. Mysql(二):库操作
  9. Java经典编程题50道之二十七
  10. 重绘(redraw或repaint),重排(reflow)