進行了高低搜索,未能找出與預測相關的AUC代表或表示什麼。
進行了高低搜索,未能找出與預測相關的AUC代表或表示什麼。
AUROC具有幾種等效解釋:
要進一步:如何得出AUROC的概率解釋?
假設我們有一個概率二元分類器,例如邏輯回歸。
在呈現ROC曲線(=接收器工作特性曲線)之前,必須先了解混淆矩陣的概念。當我們進行二進制預測時,可以有4種類型的結果:
要獲取混淆矩陣,我們仔細查看該模型所做的所有預測,併計算這四種類型的結果中每種結果的次數發生:
在此混淆矩陣示例中,在已分類的50個數據點中,正確分類了45個,錯誤分類了5個。
由於要比較兩個不同的模型,擁有一個度量標準而不是多個度量標准通常更方便,因此我們從混淆矩陣中計算出兩個度量標準,然後將它們合併為一個:
要將FPR和TPR合併為一個度量標準,我們首先計算前兩個具有不同閾值的度量標準(例如 $ 0.00; 0.01、0.02,\ dots,1.00 $ span>)進行邏輯回歸,然後將它們繪製在一張圖上,其中FPR值在橫坐標上,而TPR值在縱坐標上。生成的曲線稱為ROC曲線,我們認為的度量標準是該曲線的AUC,我們稱為AUROC。
下圖以圖形方式顯示了AUROC:
在此圖中,藍色區域對應於接收器工作曲線下的區域。特徵(AUROC)。對角線中的虛線表示隨機預測變量的ROC曲線:AUROC為0.5。隨機預測變量通常用作基準,以查看模型是否有用。
如果您想獲得一些第一手的經驗:
雖然我參加聚會有點晚,但這是我的5美分。 @FranckDernoncourt(+1)已經提到了AUC ROC的可能解釋,而我最喜歡的是他列表中的第一個(我使用了不同的措辭,但相同):
aUC的AUC分類器等於分類器將隨機選擇的正例的排名高於隨機選擇的負例的概率,即$ P \ Big(\ text {score}(x ^ +)> \ text {score}(x ^- )\ Big)$
請考慮以下示例(auc = 0.68):
讓我們嘗試模擬它:隨機繪製正樣本和負樣本,然後計算出正樣本得分大於負樣本得分的情況的比例
cls = c('P','P', 'N','P','P','P','N','N','P','N','P','N','P','N','N ','N','P','N','P','N')得分= c(0.9,0.8,0.7,0.6,0.55,0.51,0.49,0.43,0.42,0.39,0.33,0.31, 0.23、0.22、0.19、0.15、0.12、0.11、0.04、0.01)pos =得分[cls =='P'] neg =得分[cls =='N' ] set.seed(14)p =複製(50000,sample(pos,size = 1)> sample(neg,size = 1))平均值(p)
,我們得到0.67926 。非常接近,不是嗎?
順便說一句,在R中,我通常使用 ROCR軟件包繪製ROC曲線併計算AUC。
library('ROCR')pred = projection(score,cls)roc = performance(pred,“ tpr”,“ fpr”)圖( roc,lwd = 2,colorize = TRUE)lines(x = c(0,1),y = c(0,1),col =“ black”,lwd = 1)auc = performance(pred,“ auc”) auc =取消列出(auc@y.values)auc
重要的考慮因素未包含在所有這些討論中。上面討論的過程會產生不合適的閾值,並會使用錯誤的準確度評分規則(比例),這些規則會通過選擇錯誤的特徵並賦予錯誤的權重進行優化。 。 ROC曲線無法提供可行的見解。沒有研究人員檢查其好處,他們就成為必須的。它們的墨水:信息比率很大。
最佳決策不考慮“正”和“負”,而是估計結果的可能性。效用/成本/損失函數在ROC的構建中不起作用,因此ROC的無用性被用於將風險估計轉換為最佳(例如,最低預期損失)決策。
統計模型通常可以做出預測,分析人員通常應該停在那裡,因為分析人員可能不知道損失函數。預測歧視(例如,使用引導程序)進行無偏驗證的預測的關鍵組成部分是預測歧視(衡量此差異的一種半好的方法是一致性概率,恰好等於ROC下的面積,但是如果您不要繪製ROC)和校準曲線。如果要使用絕對規模的預測,則校準確實非常必要。
有關更多信息,請參見生物醫學研究的生物統計學中的“信息丟失”一章和其他章節。
>
AUC是曲線下區域的縮寫。它用於分類分析,以確定哪個使用的模型最能預測類別。
其應用示例是ROC曲線。在此,將真實的陽性率與錯誤的陽性率作圖。下面是一個示例。模型的AUC越接近1,就越好。因此,具有較高AUC的模型比具有較低AUC的模型更為可取。 G。精確調用,F1-Score或Lorenz曲線。
此論壇中的答案非常好,我經常回到這里以供參考。但是,一件事總是不見了。從@Frank的答案中,我們將AUC解釋為陽性樣本比陰性樣本得分更高的概率。同時,計算方法是繪製TPR和FPR作為閾值,更改 $ \ tau $ span>併計算該曲線下的面積。但是,為什麼曲線下的這個面積與此概率相同? @Alexy通過模擬顯示它們很接近,但是我們可以用數學方法得出這種關係嗎?讓我們假設以下內容:
請注意,TPR(調用)由以下命令給出: $ P(A> \ tau)$ span>,而FPR(釋放)由以下命令給出: $ P(B> \ tau)$ span>。
現在,我們在y軸上繪製TPR,在x軸上繪製FPR,繪製各種 $ \ tau $ span>的曲線,併計算下的面積這條曲線( $ AUC $ span>)。
我們得到:
$$ AUC = \ int_0 ^ 1 TPR(x)dx = \ int_0 ^ 1 P(A> \ tau(x))dx $$ span> 其中 $ x $ span>是FPR。 現在,一種計算此積分的方法是考慮 $ x $ span>屬於均勻分佈。在這種情況下,由於製服的PDF為1,因此它只是 $ TPR $ span>的期望。
$$ AUC = E_x [P(A> \ tau(x))] \ tag {1} $$ span> 如果我們考慮 $ x \ sim U [0,1)$ span>。
現在, $ x $ span>僅僅是 $ FPR $ span>
$$ x = FPR = P(B> \ tau(x))$$ span> 由於我們認為 $ x $ span>來自統一分佈,因此
$$ P(B> \ tau(x))\ sim U $$ span> $$ = > P(B< \ tau(x))\ sim(1-U)\ sim U $$ span> \ begin {equation} = > F_B(\ tau(x))\ sim U \ tag {2} \ end {equation} span>
但是我們從逆變換定律知道,對於任何隨機變量 $ X $ span>,如果 $ F_X(Y)\ sim U $ span>,然後 $ Y \ sim X $ span>。這是因為採用任何隨機變量並對其應用CDF會導致統一。
$$ F_X(X)= P(F_X(x)<X)= P(X<F_X ^ {-1}(X))= F_XF_X ^ {-1}(X )= X $$ span> 這只適用於製服。
在方程式(2)中使用此事實可得出: $$ \ tau(x)\ sim B $$ span>
將其代入等式(1),我們得到:
$$ AUC = E_x(P(A>B)$ P(A>B)$$ span>
換句話說,曲線下的面積是隨機正樣本比隨機負樣本得分更高的概率。
回复很晚,但是在從多個來源學習之後,我已經對AUC形成了自己的理解。該響應本質上主要是啟發式的,並不意味著嚴格
比方說,我們有M個陽性樣本和N個陰性樣本,以及一些“得分函數 $ s(x)$ span>”,它為樣本 $ x $ span>。對於閾值 $ T $ span>,如果 $ s(x)>T $ span>則為“正”,否則為“負”。
讓我們以相等的概率隨機選擇一個負樣本 $ x_n $ span> $ \ frac {1} {N} $ 。如果將閾值 $ T $ span>放置在 $ s(x_n)$ span>,則實際正利率為 $ TP(T)$ span>是對隨機選擇的正樣本 $ x_p $ span>在 $ x_n $ span>上方。換句話說,對於 $ T =,此出現是 $ P(X_p>X_n | X_n = x_n)= TP(T)$ span> s(x_n)$ span>。如果這兩個事件都發生( $ X_n = x_n $ span>和 $ x_p>x_n $ span>),則出現此事件的可能性是 $ P(X_p>X_n | X_n = x_n)P(X_n = x_n)= P(X_p>X_n \ cap X_n = x_n)$ span>。根據總概率定律,所有這些值在 $ x_n $ span>的所有可能值上的總和為“> $ P(X_p>X_n) $ span>
$$ P(X_p>X_n)= \ sum_ {i = 1} ^ N {P(X_p>X_n \ cap X_n = x_i)} $$ span>
$$ = \ sum_ {i = 1} ^ N {P(X_p>X_n | X_n = x_i)P(X_n = x_i)} $$ span>
$$ = \ sum_ {i = 1} ^ N {TP(s(x_i))\ frac {1} {N}} $$ span> >
在ROC曲線中,每當曲線向左或向右移動時,表示它已“跳過”了一個負樣本。當它向上或向下移動時,表示它已經“跳過”了一個正樣本,從而精確地給出了曲線的階梯性質。對於上述總和,在極限中,隨著樣本數量的增加,我們將所有可能的誤報率 $ FP(T)$ span>這些跳躍,我們得到 $$ \ int_0 ^ 1 {TP(FP ^ {-1}(x))dx} $$ span>對於所有可能的閾值 $ FP ^ {-1}(x)$ span>,使用總概率定律,得出總 $$ P(X_p>X_n)$$ span>
它被視為ROC曲線下的面積AUC