python3[爬虫实战] 使用selenium，xpath爬取京东手机

使用selenium ，可能感觉用的并不是很深刻吧，可能是用scrapy用多了的缘故吧。不过selenium确实强大，很多反爬虫的都可以用selenium来解决掉吧。

思路：

入口：

关键字搜索入口

这里使用的Chrome 浏览器，方便能看到信息是否录入正确，
这里，我们首先找到输入框，然后填上 zuk z2 手机然后再找到搜索按钮，选中点击后，然后再找到zuk z2手机（蓝色的字体）

这样子点完之后，我们就会出现第一页的那个图片，显示的手机商品信息

这样子我们就把整个逻辑走完了，剩下的就交给代码了，里面的注释还算详细。

 # -*- coding: utf-8 -*-

 import re
 import time
 from selenium import webdriver
 import os
 from lxml import etree

 #如果没有配置chromedriver.exe的环境变量，要写完整路径
 # chromedriver = "C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe"
 chromedriver = "chromedriver.exe"
 browser = webdriver.Chrome(chromedriver)

 url = "https://www.jd.com/"
 browser.get(url)
 time.sleep(5)
 #手机号登录
 phoneLogin = browser.find_element_by_xpath('//*[@id="key"]')
 phoneLogin.send_keys('ZUK Z2手机')

 time.sleep(3)
 # 搜索
 btnNext = browser.find_element_by_xpath('//*[@id="search"]/div/div[2]/button')
 btnNext.click()

 #加上延迟时间，不然可能拿不到数据
 time.sleep(3)
 btnPhone = browser.find_element_by_xpath('//*[@id="J_searchWrap"]/div[2]/a')
 btnPhone.click()
 page = browser.page_source
 html = etree.HTML(page)

 links = html.xpath("//*[@id='J_goodsList']/ul[@class='gl-warp clearfix']")
 print('links',links)
 for link in links:
     # 通过xpath获取商品链接
     verlink = link.xpath("./li[@class='gl-item']/div[@class='gl-i-wrap']/div[@class='p-img']/a/@href")

     #通过xpath获取商品价格
     price = link.xpath("./li[@class='gl-item']/div[@class='gl-i-wrap']/div[@class='p-price']/strong")
     print(price)
     print(verlink)

 print(len(links))

这里控制台打印了一下链接信息（需求如此）：

巴特西

python3[爬虫实战] 使用selenium，xpath爬取京东手机

思路：

最新文章

热门文章