更新、更全的《机器学习》的更新网站,更有python、go、数据结构与算法、爬虫、人工智能教学等着你:https://www.cnblogs.com/nickchen121/

基尼指数

一、基尼指数简介

基尼指数(gini coefficient)代表了模型的不纯度,基尼指数越小,则不纯度越低;基尼指数越大,则不纯度越高,这和信息增益比是相反的。

假设一个训练集有\(K\)个类别,样本属于第\(k\)个类别的概率为\(p_k\),则它的基尼指数为
\[
G(p) = \sum_{k=1}^K p_k (1-p_k) = 1 - \sum_{k=1}^K p_k^2
\]
如果是二分类问题,其中一个分类的概率为\(p\),则它的基尼指数为
\[
G(p) = 2 p(1-p)
\]
对于某一个训练集\(D\),假设训练集有\(K\)个类别,并且第\(k\)个类别有\(C_k\)个样本,则\(D\)的基尼指数为
\[
G(D) = 1 - \sum_{k=1}^K ({\frac {|C_k|} {|D|}})^2
\]
对于某一训练集\(D\),如果根据特征\(T\)的某个特征值是否等于\(t\)把\(D\)分成两个子集\(D_1\)和\(D_2\)
\[
D_1 = \{(x,y)\in{D}|A(x)=t\},\quad D_2 = D-D_1
\]
则\(D\)的基尼指数为
\[
G(D,A) = ({\frac {|D_1|} {|D|}})G(D_1) + ({\frac {|D_2|} {|D|}})G(D_2)
\]
基尼指数\(G(D)\)表示\(D\)的不确定性,基尼指数\(G(D,A)\)表示经过\(T=t\)分割后\(D\)的不确定性。基尼指数越大,样本集合的不确定性也就越大,不纯度越高。

最新文章

  1. filefiter
  2. Splay
  3. 第 12 章 Ajax
  4. asp.net c#过滤html代码,净化DIV SPAN等
  5. Django进阶篇(二)
  6. MySQL中的insert ignore into, replace into等的一些用法总结
  7. subeclipse 安装
  8. php根据身份证号码计算年龄
  9. 永远不要在Linux 执行的 10 个最危险的命令
  10. C# 内存法图像处理
  11. 纯JS写出日历
  12. [BZOJ1030] [JSOI2007] 文本生成器 (AC自动机 & dp)
  13. C#多线程编程序--聊聊线程
  14. Android异步消息传递机制源码分析
  15. 手把手教你开发jquery插件
  16. Shader的基本用法和语法结构
  17. Alien::BatToExeConverter 模块应用
  18. GNU make学习笔记
  19. Oracle Lock(Enqueues)
  20. 【BZOJ】3302: [Shoi2005]树的双中心 && 2103: Fire 消防站 && 2447: 消防站

热门文章

  1. js中鼠标点击、移动和光标移动的事件触发
  2. 代码质量检测(SonarQube)整合中文版+阿里P3C
  3. MySQL基础/数据库和表的设计
  4. Spring Boot 多环境如何配置
  5. Nancy获取Request.Form的所有参数
  6. SpringCloud(四)Hystrix熔断器
  7. Hibernate 之 @Query查询
  8. windows下安装vue教程
  9. DOM之节点操作
  10. vue把链接转二维码