Pandas处理超大规模数据
2024-09-01 23:06:58
对于超大规模的csv文件,我们无法一下将其读入内存当中,只能分块一部分一部分的进行读取;
首先进行如下操作:
import pandas as pd
reader = pd.read_csv('data/servicelogs', iterator=True) 分块,每一块是一个chunk,之后将chunk进行拼接;
loop = True
chunkSize = 100000
chunks = []
while loop:
try:
chunk = reader.get_chunk(chunkSize)
chunks.append(chunk)
except StopIteration:
loop = False
print "Iteration is stopped."
df = pd.concat(chunks, ignore_index=True)
最新文章
- jquery鼠标右键事件
- js数组方法扩展
- CTE
- eclipse基础及开发插件
- mac mysql
- 黄聪: 50 个 Bootstrap 插件
- NVelocity的基本用法
- 常用vi编辑命令
- [转]Responsive Tables Demo
- i++和++i
- 【题解】【区间】【二分查找】【Leetcode】Insert Interval &; Merge Intervals
- Bitbucket Pull Request和fork
- moodle中文API之表单API
- Spring3.2 HelloWorld
- 再谈Hibernate级联删除——JPA下的Hibernate实现一对多级联删除CascadeType.DELETE_ORPHAN
- glog 使用
- Linux centos nginx下载安装初步
- BatchPreparedStatementSetter,用法
- css之操作属性
- 类型重命名 typedef