Published on

PR-ROC-AUC曲线

PR曲线

查准率与查全率的区别在于分母:
查准率:预测为正的样本中(真正 和 假正),真正例占的比例
查全率:样本本身的正例中(预测正确的 和 假反:错误的预测为假例的),预测为正的占的比例

如何绘制PR曲线:
通过调节置信度,即样本是正样本的概率,50%对样本进行划分,概率大于50%的就是正例,概率小于50%的就是负例

PR曲线的一些规律:
对(0,1)点的看法:
PR曲线肯定会经过(0,0)点,在将阈值设置为1时,所有的样本都为负例,TP=0,所以P=R=0,
随着阈值变小,p的值很接近1(大于0.9的概率为正,所以查准率很高),r的值很低
对(1,0)点:
曲线最终不会到(1,0)点,该点表示所有样本都被判别为正例(查全率为1),虽有FN=0,r=1;
而FP=所有负例样本数,p=TP/(TP+FP),而 当负例很多FP很大时,p=0,

# 合理的p-r曲线

合理的PR曲线应该是,从(0,0)拉伸到(0,1),并且前面的都预测正确,

如果有某个划分点可以把正负样本完全分开,那么P-R曲线就是整个 1\*1的面积,
完全分开则可以理解为PR的概率都为1.

ROC-AUC

auc为什么会正负样本比例不敏感

这个问题的本质原因,在于横轴FPR只关注负样本,与正样本无关;纵轴TPR只关注正样本,与负样本无关。所以横纵轴都不受正负样本比例影响,积分当然也不受其影响。

| | | | ------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------- | | | |

ROC曲线:是反映敏感性和特异性连续变量的综合指标,ROC曲线上每个点反应着对同一信号刺激的感受性,ROC曲线是通过取不同的阈值来计算每个阈值下,伪证类率(多少个负例被预测为正例)和真正类率(真正的正例被预测出来的概率)

直观的我们可以看出,当存在一个可以完全分类的条件时,AUC面积为1.