利用selenium来进行爬取数据

import time
from selenium import webdriver # 创建phantomjs浏览器对象
driver = webdriver.PhantomJS()
# 向网站发送请求
driver.get("http://www.baidu.com/")
# 打印响应html源码
print(driver.page_source)
# 查看源码中是否有搜索两个字,失败返回-1,成功非-1
print(driver.page_source.find("搜索"))
# 向百度搜索框发送内容
driver.find_element_by_id("kw").send_keys("拉勾")
# 点击搜索按钮
driver.find_element_by_id("su").click()
# 为了得到一张完整的图片,因此添加延时
time.sleep(2)
# 获取内存中网页中的截屏
driver.save_screenshot("拉勾.png")
# 关闭浏览器
driver.quit()

如果要用chrome浏览器的话,则将浏览器对象改为Chrome就可以

driver = webdriver.Chrome()

若要将有头浏览器变成无头浏览器的话,这添加

opt = webdriver.ChromeOptions()
opt.set_headless()
driver_item = webdriver.Chrome(options=opt)

还有好多方法,查看文档即可:https://python-selenium-zh.readthedocs.io/zh_CN/latest/

最新文章

  1. cocos2d-x打飞机实例总结
  2. JS策略模式
  3. 第十周 psp
  4. SpringMVC常用配置-添加静态资源处理器-针对SpringMVC中静态资源无法访问的问题
  5. kthread_run【转】
  6. SQL Server 中 with tmp 临时表的用法
  7. ios开发:GCD多线程
  8. 在类库或winform项目中打开另一个winform项目的窗体
  9. strcpy实现
  10. 导出函数结构 EXPORT_DIRECTORY
  11. 基于TcpDump和pcap文件分析的Android平台网络抓包程序设计与实现【随便】
  12. Spring(一)Spring的第一滴血
  13. Combiners和Partitioner编程
  14. Java爬虫——常用的maven依赖
  15. DUBBO分布式入门
  16. svn回复历史版本的操作方法
  17. input和raw_input
  18. BZOJ 3171 循环格(费用流)
  19. 前端架构一之XAMPP
  20. 0047 Spring的AOP入门基础--切面组件--通知--切入点

热门文章

  1. Oracle Shared Pool机制之——Latches, Locks, Pins and Mutexes
  2. Python学习之路【第二篇】-pyc简介、Python常用的数据类型及其用法和常用运算符
  3. Springboot+Mybatis批量导入多条数据
  4. linux nat style
  5. oracle create tablespace
  6. dl简单模板,无pretraining过程
  7. ubuntu12下安装eclipse+pydev +1搜索命令+kill指定进程
  8. laravel的validation 中文 文件
  9. Win10系列:UWP界面布局进阶8
  10. tomcat 线程数与 mysql 连接数综合调优