1、pandas解决“pandas.parser.CParserError: Error tokenizing data. C error: Expected 2 fields in line 3, s”

2、中文编码问题

【所谓unicode】

unicode是一种类似于符号集的抽象编码,它只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存储。也就是它只是一种内部表示,不能直接保存。所以存储时需要规定一种存储形式,比如utf-8和utf-16等。理论上unicode是一种能够容纳全世界所有语言文字的编码方案。(其他编码格式不再多说)

【所谓GB码】

GB就是“国标”的意思,即:中华人民共和国国家标准。GB码是面向汉字的编码,包括GB2312(GB2312-80),GBK,GB18030,表示范围从小到大递增,而且基本是向下兼容的。此外经常遇到一种叫做CP936的编码,实际上可以大概看做是GBK。

【判断编码】

1、使用isinstance(s, str)来判断一个字符串是否为一般字符串(str为ascii类型的字符串,utf-8、utf-16、GB2312、GBK等都是ascii类型的字符串);

使用isinstance(s, unicode)来判断一个字符串是否为unicode编码形式的字符串(unicode编码的字符串才是unicode类型的字符串)。

2、使用type()或者.__class__

在编码正确的情况下:

例如:stra = "中", 则使用type(stra)的结果是<type 'str'>,表明为ascii类型字符串;

例如:strb = u"中", 则使用type(strb)的结果是<type 'unicode'>,表明为unicode类型字符串。

3、在将字典数据转换成DataFrame时,出现

【解决方法】:

添加参数:index = [0]

r = pd.DataFrame(r,index = [0])

4.在进行数据大小的条件比较时,出现:

这种问题是因为数据当中出现了字符串类型或者其他,可以

使用value_counts发现数据内容,可能会含有空值,该空值比较特殊,既不是None,也不是Null,而是一个空格

in:        data1['coupon_money'].value_count()

找到这些行之后删除就能解决这个问题。删除:data.drop(行号1,行号2,...)

最新文章

  1. 贝塞尔曲线(UIBezierPath)属性、方法汇总
  2. kindeditor编辑器里面 filterMode为false时候,允许输入任何代码
  3. python学习笔记-(一)初识python
  4. Introducing Windows 10 Editions(Windows10版本介绍)
  5. 在Seismic.NET下用最少的语句写出一个剖面显示程序
  6. hibernate持久化操作注意
  7. iOS 仪表式数字跳动动画-b
  8. Linux改动文件权限记录
  9. Android源代码分析-资源载入机制
  10. Java学习之道:空指针错误求解救????????????
  11. PHPthinking官方论坛
  12. div、span
  13. Spring MVC 表单验证
  14. 购物车css样式效果
  15. Java方法的静态绑定与动态绑定讲解(向上转型的运行机制详解)
  16. C和C指针小记(二)-注释,三字母词,编译选项
  17. linux下SVN忽略指定文件/文件夹
  18. Matlab产生波形数据文件
  19. java中日期的换算处理
  20. [ASP.NET]ASP.NET中常用的26个优化性能方法

热门文章

  1. uboot--tftp
  2. Js对于数组去重提高效率一些心得
  3. php获取远程图片并把它保存到本地
  4. percona-toolkit 之 【pt-query-digest】使用
  5. Python第一周基本语句学习整理
  6. Day06 - Fetch、filter、正则表达式实现快速古诗匹配
  7. 简单说 用CSS做一个魔方旋转的效果
  8. Jave基本数据类型
  9. vue中的插槽(slot)
  10. python小白入门