1、简单变换:

  开方、平方、对数等

2、数据规范化:

(1)离差标准化(最小最大标准化):消除量纲(单位)影响以及变异大小因素的影响。

  x1=(x-min)/(max-min)

  代码:data1=(data-min())/(data.max()-data.min())

(2)标准差标准化(0-均值标准化)------消除单位影响以及变量自身变异影响。

  x1=(x-mean)/std

  代码:data2=(data-data.mean())/data.std()

它有个特性,得到的数据负数较正数多,且得到的平均数为0,标准差为1.

(3)小数定标规范化------消除单位影响

  x1=x/10**(k)

  k=log10(x的绝对值的最大值)

  代码:k=numpy.ceil(numpy.log10(data.abs().max()))

     data3=data/10**k

3、离散化:

(1)等宽离散化:将属性的值域分为具有相同宽度的区间。

  代码:采用pandas.cut()函数,cut有三个参数,第一个是数据,第二个参数表示分为k份,第三个参数为标签labels。

  pandas.cut(data,3,labels=["便宜","适中","贵"])#将数据data分为3等份,标签为便宜、适中、贵

如:

  非等宽离散化:pandas.cut ( data, [ 0,50,150,300,500,data.max() ] ,labels)

(注意:将列表[0,50,……]可以换成分位数,就可以进行等频率离散化。

(2)等频率离散化:将相同数据的记录放进每个区间 ①求分位数②cut函数

  过程主要将k份的分位数求出来,dataframe可以用describe函数求,属性采用percentile就可以了。列表可以用numpy的percentile来求。比如np.percentile(data,75)是求四分位数(3/4)。

  ①dataframe结构

  #k为分的份数,w作为分位数,可以运用dataframe.describe(percentiles=w)来计算分位数

  w=[ i/k for i in range(k+1)]

  w=data.describe (percentiles=w) [ 4:4+k+1] #取几个分位数的值作为不等长列表,用于cut函数

  d2=pd.cut(data,w,labels=range(k))

  ②列表、数组结构

  #用np.percentile(data,百分比)来求

  temp=[ i/k*100 for i in range(k+1)]

  w=[ ]

  for item in temp:

    w.append(np.percentile(data,item))

  d3=pd.cut(data,w,labels=range(k))

(3)一维聚类离散化:先聚类(如k-means),然后对每一类的连续值进行标记。

  ①k-means求聚类中心,并排序,将相邻两项的中点作为边界点,把首末边界点加上,整合成w列表②cut函数

  k-means:

  from sklearn.cluster import KMeans

  kmodel=KMeans(n_clusters=k)  #k为聚成几类

  kmodel.fit(data.reshape(len(data),1))) #训练模型

  c=pd.DataFrame(kmodel.cluster_centers_) #求聚类中心

  c=c.sort_values(by=’列索引') #排序

  w=pd.rolling_mean(c,2).iloc[1:] #用滑动窗口求均值的方法求相邻两项求中点,作为边界点

  w=[0] +list(w[0] + [ data.max() ]  #把首末边界点加上

  d3= pd.cut(data,w,labels=range(k)) #cut函数

4、小波变换

小波变换是一种新的数据分析方法,主要对信号数据进行特征提取。

5、属性构造:

也就是构造新的属性再写入原数据中。

最新文章

  1. 在.net中使用GAC
  2. PHP入门part4
  3. Qt回忆录之配置开发环境
  4. Lock较synchronized多出的特性
  5. TestLink安装全攻略
  6. 如何在spark中读写cassandra数据 ---- 分布式计算框架spark学习之六
  7. Ngrok远程桌面及ssh配置
  8. linux安装setup工具
  9. phpcms v9和discuz X3.1实现同步登陆退出论坛(已实现)
  10. 一些web编程能用到的小知识
  11. GIT学习(二)-->Git分布式的好处
  12. RMAN备份各种物理文件
  13. win32最简单的htmlayout图形界面demo
  14. ssh自动化出现的莫名报错
  15. hdfs存取文件机制
  16. Android 开发笔记___SQLite__优化记住密码功能
  17. 华为笔记HOSTS,便于访问云端存储
  18. X-pack 6.4.0 破解
  19. oracle之分析函数解析及其应用场景
  20. 修改Spring Boot默认的上下文

热门文章

  1. 字体大小之px、em、rem、pt,字号详解
  2. 0726xtrbackup实例详解
  3. Linux查看文件内容命令:more(转)
  4. mdl 锁 SYSTEMTAP跟踪
  5. iOS_25_彩票设置的cell的数据源模型的封装
  6. 网络编程----堵塞、非堵塞和同步、异步IO
  7. makepy
  8. 深入解析Dropout——基本思想:以概率P舍弃部分神经元,其它神经元以概率q=1-p被保留,舍去的神经元的输出都被设置为零
  9. raspberry-同路由器用putty和vnc桌面登录方法
  10. html页面、canvas导出图片