Flipcart 爬取流程
2024-08-27 13:05:49
第一步:爬取分类url
from requests_html import HTMLSession
session =HTMLSession()
#https://www.flipkart.com/lc/getData?dataSourceId=websiteNavigationMenuDS_1.0
#还有个t参数,目前可以不加
res =session.get('https://www.flipkart.com/lc/getData?dataSourceId=websiteNavigationMenuDS_1.0', verify=False)
appliances_columns_list=res.json().get('navData').get('appliances').get('tabs')[0].get('columns')
men_columns_list=res.json().get('navData').get('men').get('tabs')[0].get('columns')
women_columns_list=res.json().get('navData').get('women').get('tabs')[0].get('columns')
baby_kids_columns_list=res.json().get('navData').get('baby-kids').get('tabs')[0].get('columns')
home_kitchen_columns_list=res.json().get('navData').get('home-kitchen').get('tabs')[0].get('columns')
nav_columns_lists =appliances_columns_list+men_columns_list+women_columns_list+baby_kids_columns_list+home_kitchen_columns_list
for nav_columns_list in nav_columns_lists:
for title_url_type_dict in nav_columns_list:
print(title_url_type_dict.get('url'))
第二步:获取翻页
#page参数控制
如:https://www.flipkart.com/womens-footwear/pr?sid=osp,iko&page=3
第三步:获取详情页url
from requests_html import HTMLSession
session =HTMLSession()
res =session.get('https://www.flipkart.com/womens-footwear/pr?sid=osp,iko&page=3', verify=False)
print(res.html.xpath('//*[@id="container"]/div/div[3]/div[2]/div[1]/div[2]/div/div/div/div/div/a[1]/@href')[4:])
第四步:详情页访问
最新文章
- Javascript权威指南
- strust.xml
- centos 7 搭建本地yum仓库
- DP+单调队列 codevs 1748 瑰丽华尔兹(还不是很懂具体的代码实现)
- php自定义函数call_user_func和call_user_func_array详解
- dshow,Sample Grabber 从摄像头采集
- VIM 技巧 (一)全文统一添加
- Android TabHost中Activity之间传递数据
- HDU-2500 做一个正气的杭电人
- 对于ios7扫描二维码功能的实现
- cocos2d-x中的init,onEnter,onExit......
- JMeter基础
- python实现断点续传下载文件
- HYML / CSS和Javascript 部分
- Java反射机制剖析(一)-定义和API
- hdu1789 Doing Homework again---(经典贪心)
- DP求树的重心
- Nginx 常用配置
- IdentityServer4-主题
- 系统windows版本修改