AUC计算 - 手把手步进操作

2017-07-10 14:38:24

理论参考：

http://www.cnblogs.com/suanec/p/5941630.html

ROC全称：receiver operation characters，适用于二分类。

同理可得由ROC曲线计算的AUC，适用于二分类。

计算AUC需要知道这个表格：

其中实际正样本常被成为Positive，实际负样本常被成为Negative。

对应的表格中数据分别为True Positive、False Positive、True Negative、False Negative。

对应的概率Rate，分别为TPR、FPR、TNR、FNR。

其中TPR=TP/P、FPR=FP/N，绘制ROC，主要使用TPR和FPR。

使用网上的例子：

模型预测情况与实际类标情况：

由以上绘制的ROC曲线及各点取值。

当阈值自高向低取，分别为0.9、0.8、0.7、0.6、0.55。

0.9：TPR:0.1，FPR:0

0.8：TPR:0.2，FPR:0

0.7：TPR:0.2，FPR:0.1

0.6：TPR:0.3，FPR:0.1

0.55：TPR:0.4，FPR:0.1

按照取值绘制ROC图线，计算图线下面积即可得AUC。

其中：以0.7举例TRP和FPR如何统计：

当阈值为0.7时，可得模型将1、2、3样本分为了正样本，其他为负样本。

1、2、3中正样本正确了两个。

TPR：正样本正确率为正样本正确数目/所有正样本数目：2/10=0.2。

FPR：正样本错误率为正样本错误数目/所有负样本数目：1/10=0.1。

那么在0.7为阈值可以绘制ROC曲线点：（0.1，0.2）。

以此类推。绘制多个阈值下的ROC曲线点，可得ROC曲线的近似值。（因为阈值取值数量有限，故ROC为近似值）

计算AUC：

因为ROC曲线近似，可以利用矩阵面积加和得到面积和。（计算AUC面积和，就可以按个人喜好计算了，spark mllib中的AUC是按坐标取值计算连线形成梯形的面积加和。个人感觉按纵轴计算矩阵面积实现更容易一些，但精度有损失。）

当ROC为精确时，需要积分。仅存于理论层面。

巴特西