1 unique()

统计list中的不同值时,返回的是array.它有三个参数,可分别统计不同的量,返回的都是array.

当list中的元素也是list时,尽量不要用这种方法.

import numpy as np
a = [1,5,4,2,3,3,5]
# 返回一个array
print(np.unique(a))
# 返回该元素在list中第一次出现的索引
print(np.unique(a,return_index=True))
# 返回原list中每个元素在新的list中对应的索引
print(np.unique(a,return_inverse=True))
# 返回该元素在list中出现的次数
print(np.unique(a,return_counts=True))
# 当加参数时,unique()返回的是一个tuple,这里利用了tuple的性质,即有多少个元素即可赋值给对应的多少个变量
p,q,m,n = np.unique(a,return_index=True,return_inverse=True,return_counts=True)
print(p,q,m,n)
# [1 2 3 4 5]
# (array([1, 2, 3, 4, 5]), array([0, 3, 4, 2, 1]))
# (array([1, 2, 3, 4, 5]), array([0, 4, 3, 1, 2, 2, 4]))
# (array([1, 2, 3, 4, 5]), array([1, 1, 2, 1, 2]))
# [1 2 3 4 5] [0 3 4 2 1] [0 4 3 1 2 2 4] [1 1 2 1 2] # 注意当list中的元素不是数字而是list的时候,输出的数据类型与list中元素的长度有关
# 利用这种方法对list中元素去重或求里面元素的个数都不是好方法,很容易出错
b = [[1,2],[3,4]]
print(np.unique(b))
# b中有两个list,输出的却是4
print(len(np.unique(b)))
c = [[1,2],[3,4],[5]]
print(np.unique(c))
print(len(np.unique(c)))
# [1 2 3 4]
#
# [list([1, 2]) list([3, 4]) list([5])]
#

统计series中的不同值时,返回的是array,它没有其它参数

import pandas as pd
se = pd.Series([1,3,4,5,2,2,3])
print(se.unique())
# [1 3 4 5 2]

2 nunique()

可直接统计dataframe中每列的不同值的个数,也可用于series,但不能用于list.返回的是不同值的个数.

df=pd.DataFrame({'A':[0,1,1],'B':[0,5,6]})
print(df)
print(df.nunique())
# A B
# 0 0 0
# 1 1 5
# 2 1 6
# A 2
# B 3
# dtype: int64

也可与groupby结合使用,统计每个块的不同值的个数.

all_user_repay = all_user_repay.groupby(['user_id'])['listing_id'].agg(['nunique']).reset_index()
# user_id nunique
# 0 40 1
# 1 56 1
# 2 98 1
# 3 103 1
# 4 122 1

最新文章

  1. Visual Studio 2010 下 安装RGiesecke.DllExport
  2. Angular2 起步(1)
  3. 强连通 HDU3072
  4. Make My GitHub Pages
  5. Hibernate 抓取策略fetch-1 (select join subselect)
  6. Appium入门示例(python)
  7. 使用calabash测试开源中国Android客户端
  8. hdoj 3336 Count the string【kmp算法求前缀在原字符串中出现总次数】
  9. 数据结构(线段树):CodeForces 85D Sum of Medians
  10. liunx命令3
  11. Sqoop的安装部署
  12. 为什么选择Django?
  13. 为学Android,我看了这些书
  14. Jmeter 结构、原理介绍 Jmeter结构、原理介绍(1)
  15. 每次运行caffe代码之前需要考虑修改的地方
  16. C/C++判断传入的UTC时间是否在今天
  17. poi 生成图片到excel
  18. ora-904 rowid create materialized view
  19. jquery函数加载及生成随机数
  20. 最新证明面临质疑:P/NP问题为什么这么难?

热门文章

  1. Jmeter添加压力机
  2. Java中静态变量和实例变量的区别
  3. Cacti+nagios 整合监控部署文档
  4. 一、IIS搭建前端静态模板_资源加载问题
  5. PAT Advanced 1001 A+B Format (20 分)
  6. u-boot-2016.09 make编译过程分析(一)
  7. java调用shell脚本小demo
  8. 一个错误导致懂了mac系统的PATH环境变量
  9. [每日一讲] Python系列:字符串(上)
  10. Java——常用类(Enum)