一、文字处理

之前在练习爬虫时,常常爬了一堆乱七八糟的字符下来,当时就有找网络上一些清洗数据的方式,这边pandas也有提供一些,可以参考使用看看。下面为两个比较常见的指令,往往会搭配使用。

split(“,”)可以将文字串分割,冒号里的为分割依据,左边的代码就是把两个冒号中间的文字串视为一个单元。

strip()去除空白符号。

1、正则表达式

正则表达式为处理文字搜索匹配的功能,python可以直接导入re模块来使用。用法为下。

可直接用split来编译再拆解,也可以先用compile编译,再用split来拆解,后者可节省cpu的资源。

下面是几个比较常见的正则表达式指令

关于文字的处理pandas还有其他的方法,这边就不细讲了,有需要的时候再去查看就行。

二、层次化处理

一般常见的关系式数据库通常只有单一索引,对于数据量大的搜索效果通常不太好,pandas这边提供了多层索引,有点像树状图,一层一层的下来,可以提高搜索效率。

可以用loc来调取数据,以逗号“,”来间隔层数,下图就是将所有第一层的和第二层为2的数都拉出

unstack功能是把本来的第二层的拿来当列,他的相反是stack

可以自定义行列的名字

三、合并数据集

这跟表join的功能类似,也是将两张表的数据合在一起。用如下,可将df1,df2两个表相接,key就是他们接合的依据。merge默认是两张表的交集,并默认用共同有的列为依据。

如果想要将两张表的并集,或是左连接、右连接。可以在选项设定。outer代表并集、left和right代表左右连接。

DataFrame还有许多的连接方式与设定,有需要再去查看就可以。

最新文章

  1. 从 HTTP 到 HTTPS - 什么是 HTTPS
  2. STP的作用和操作
  3. [原] SharePoint 2010 WebPart与Google地图系列 一:创建显示地图的WebPart
  4. codevs 3290 华容道(SPFA+bfs)
  5. CLR 初步
  6. mybatis 使用记录
  7. 关于APP接口设计
  8. Dreamweaver代码提示快捷键冲突
  9. c# UDP
  10. Android中的布局优化方法
  11. CSS Sprite 图标
  12. button按钮在IE6、7、8、9、10中处理方式并不相同[转]
  13. Firefly框架参考
  14. XP系统取消开机硬件检查
  15. LPC1768的看门狗定时器使用
  16. struts2接收参数的5种方法
  17. 谢欣伦 - 原创教程 - 使用GDI+绘制抗锯齿斜线
  18. 多目标跟踪(MOT)论文随笔-SIMPLE ONLINE AND REALTIME TRACKING WITH A DEEP ASSOCIATION METRIC (Deep SORT)
  19. JavaScript 高级
  20. 昂达 v891 v1 终于 删除 windows 分区 并且恢复了容量。

热门文章

  1. Linux 正文处理命令及tar命令 利用vi编辑器创建和编辑正文文件
  2. 关于Java语言for循环内外变量定义的问题
  3. oracle用UNION-ALL 替换UNION ( 如果有可能的话)
  4. Laravel实现定时任务的示例代码
  5. fastclick使用与 fastclick ios11.3相关bug原因(ios输入框点击变得不灵敏,ios input失焦后,页面上移,点击不了)
  6. 基于BERT预训练的中文命名实体识别TensorFlow实现
  7. HDU 1236
  8. 析构函数 p157
  9. H5 移动端获取当前位置
  10. CF241B Friends