我的第一篇知乎文章提到了非平衡数据集(imbalanced set)下使用准确率作为分类器的分类性能评估指标会误导我们选择实际分类性能较差的分类器,并提到了几种更适合的性能评估指标。这篇文章会从分类结果的第一步——混淆矩阵(confusion matrix)出发,介绍一些常用的分类器性能评估指标。
为了节省大家的时间,在这里列出这篇文章涉及的性能评估指标:
精度(Accuracy)
查全率(Recall)
查准率(Precision)
F1 score
Kappa
ROC和AUC
大部分的分类性能评估指标都是从混淆矩阵(confusion matrix)延伸出来的
上图的混淆矩阵为二分类问题的混淆矩阵。二分类问题是生活中很常见的任务之一,比如医生根据各种生理指标判断一个人是一型糖尿病还是二型糖尿病。在上图中Predicted和Actual分别表示预测值和真实值,在糖尿病检测中,predicted表示医生的诊断,actual表示患者的的真实情况。这个例子可能不是非常贴切,因为一般来说医生的诊断出错的概率并不大,不过不排除有一定的误诊率。上图中的四个象限分别表示:
TP(True Positive):预测正确的正例
FP(False Positive):预测错误的正例,在统计学中又叫第二类错误
FN(False Negative):预测错误的反例,在统计学中叫做第一类错误
TN(True Negative):预测正确的反例