python爬取链家二手房信息,确认过眼神我是买不起的人
2024-08-24 10:01:10
前言
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。
PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取
基本环境配置
- python 3.6
- pycharm
- requests
- parsel
- time
相关模块pip安装即可
确定目标网页数据
哦豁,这个价格..................看到都觉得脑阔疼
通过开发者工具,可以直接找到网页返回的数据~
每一个二手房的数据,都在网页的 li 标签
里面,咱们可以获取网页返回的数据,然后通过解析,就可以获取到自己想要的数据了~
获取网页数据
import requests
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
解析网页数据
import parsel
selector = parsel.Selector(response.text)
lis = selector.css('.sellListContent li')
dit = {}
for li in lis:
title = li.css('.title a::text').get()
dit['标题'] = title
positionInfo = li.css('.positionInfo a::text').getall()
info = '-'.join(positionInfo)
dit['开发商'] = info
houseInfo = li.css('.houseInfo::text').get()
dit['房子信息'] = houseInfo
followInfo = li.css('.followInfo::text').get()
dit['发布周期'] = followInfo
Price = li.css('.totalPrice span::text').get()
dit['售价/万'] = Price
unitPrice = li.css('.unitPrice span::text').get()
dit['单价'] = unitPrice
csv_writer.writerow(dit)
print(dit)
保存数据
import csv
f = open('二手房信息.csv', mode='a', encoding='utf-8-sig', newline='')
csv_writer = csv.DictWriter(f, fieldnames=['标题', '开发商', '房子信息', '发布周期', '售价/万', '单价'])
csv_writer.writeheader()
csv_writer.writerow(dit)
f.close()
数据
最新文章
- JSP复习整理(五)JavaBean生命周期
- Appium学习实践(五)遇到的坑(记录自己工作中遇到的坑以及解决方案,不定时更新)
- 迭代器iterator
- 用httpclient访问时,附带cookie信息
- Fluent NHibernate other example
- Flume practices and sqoop hive 2 oracle
- 以“图片渐入渐出”为例讲述jQuery插件的具体实现
- iOS开发:应用生命周期
- 教程-(SQL DBE、ADO连接)+(Firebird火鸟+DbExpress)+(VF DBF数据库)+(DB Paradox)
- LinqToSql 小例子
- JavaScript面向对象之Windows对象
- win10 uwp 获取按钮鼠标左键按下
- mysql5.7在windwos下的安装
- python成长之路八 -- 内置函数
- Codeforces 920F - SUM and REPLACE
- linux查看网络信息命令
- Alpha冲刺第4天
- 【嵌入式】——arm裸机开发 step by step 之 串口通信
- (转)TCP连接异常断开检测
- 【社区公益】送《Web前端开发最佳实践》给需要的人
热门文章
- 记录一下navicat的快捷键
- DP搬运工1 [来自yyy--mengbier的预设型dp]
- C++ Templates(1.3 多模板参数 Multiple Template Parameters)
- Python 判断ip是否属于网段
- 常用sql语句整理
- A distributional code for value in dopamine-based reinforcement learning
- 牛客网PAT练兵场-月饼
- 焦大:seo思维光年(中)seo体系化
- JS数组遍历的十二种方式
- openssl1.0在mac下的编译安装(踩坑精华)