ROC曲線告訴您什麼是傳統推論不會？

題:

ROC曲線告訴您什麼是傳統推論不會？

jermdemo

2010-08-04 20:13:28 UTC

view on stackexchange narkive permalink

您何時傾向於在其他測試中使用ROC曲線來確定對結果進行某種測量的預測能力？

在處理離散結果（活/死，存在/不存在）時，會有什麼用使ROC曲線比卡方曲線更有力還是更弱？

什麼是ROC曲線？您能提供一個鏈接嗎？

HTTP://恩.Wikipedia.org/wiki/receiver_operating_characteristic

五答案:

Dave Kellen

2010-08-05 00:31:22 UTC

view on stackexchange narkive permalink

ROC函數（不一定是曲線）允許您評估特定統計模型（由預測變量或一組預測變量）提供的區分能力。

ROC的主要考慮因素是，模型預測不僅基於模型根據預測變量提供的證據來區分/做出預測的能力。同樣有效的是響應標準，該標准定義了模型預測響應所需的證據量以及這些響應的結果是什麼。為響應標準確定的值將極大地影響模型的預測，並最終影響模型將犯的錯誤的類型。

考慮具有預測變量和響應標準的通用模型。該模型試圖通過回答Yes或No來預測X的存在。因此，您具有以下混淆矩陣：

  ** X出現X不存在** **模型預測X出現* *命中誤報**模型預測X不存在**正確拒絕缺失

在此矩陣中，您只需要考慮命中和誤報的比例（因為可以得出其他比例）從這些，考慮到他們一定要1）。對於每個響應標準，您將擁有不同的混淆矩陣。錯誤（丟失和錯誤警報）是負相關的，這意味著最小化錯誤警報的響應標準會最大化未命中，反之亦然。信息是：沒有免費的午餐。

因此，為了了解模型如何區分案例/做出預測，而與所建立的響應標準無關，請繪製在可能的響應標準範圍內產生的命中率和錯誤率。

從此繪圖中獲得的是ROC函數。該功能下的區域為模型的辨別能力提供了無偏的，非參數的度量。此措施非常重要，因為它沒有響應標準可能產生的任何混雜。

第二個重要方面是，通過分析功能，可以定義哪種響應標準更適合你的目標。您想避免什麼類型的錯誤，什麼是錯誤就可以了。例如，考慮進行HIV測試：該測試可查找某種證據（在這種情況下為抗體），並根據證據與反應標準的比較做出區分/預測。通常將此響應條件設置得很低，以使未命中率降至最低。當然，這將導致更多的誤報，但要付出一定的代價，但與未命中相比，其代價是可以忽略的。並根據給定測量條件的需求和約束建立最佳響應標準。像hi-square這樣的測試根本無法提供幫助，因為即使您測試的預測是否處於偶然水平，也會出現許多不同的誤報警報這些對與機會級別一致。

某些框架（例如信號檢測理論）先驗地認為，可用於辨別的證據具有特定的分佈（例如正態分佈或伽馬分佈）。當這些假設成立（或接近）時，可以使用一些非常好的方法使您的生活更輕鬆。

希望這有助於您了解ROC的優勢

我已經有7年的時間考慮這個問題，並接受了您的回答。

Aniko

2010-08-04 20:55:12 UTC

view on stackexchange narkive permalink

當預測變量是連續的且結果是離散的時，將使用ROC曲線，因此卡方檢驗將不適用。實際上，ROC分析在某種意義上等同於Mann-Whitney檢驗：曲線下的面積為P（X> Y），這是通過M-W檢驗所檢驗的數量。但是，Mann-Whitney分析並不強調選擇臨界值，而這是ROC分析的重點。此外，ROC曲線通常僅用作協變量預測能力的可視化顯示。

John

2010-08-04 20:56:39 UTC

view on stackexchange narkive permalink

最簡單的答案是，傳統的信號檢測測試只能在ROC（接收機工作特性）上給您一個點，而曲線則可以讓您通過一系列值查看響應。準則和d'可能會在整個曲線中移動一個。這就像通過選擇兩類預測變量生成的t檢驗與通過查看每個預測變量的參數操縱生成的兩條回歸線之間的區別。

chl

2010-08-27 13:22:12 UTC

view on stackexchange narkive permalink

如果您對更多參考資料感興趣，可以在K.H.上找到大量論文。 Zou的網站接收器工作特性（ROC）文獻研究。

ROC曲線也可用於對比較不同分類器性能的興趣，並在生物醫學研究和生物信息學中得到廣泛應用。

Frank Harrell

2011-10-25 23:17:27 UTC

view on stackexchange narkive permalink

在許多方面，ROC都偏離了模型的主要推理和估計工具。我在那裡看不到太多價值。

如果有機會請詳細說明！我認為我對其他著作的論點有一個大致的了解，在這裡將是非常有價值的補充。

如果我們相信模型，那麼基於模型的估計將是理想的，並且它們是最強大/最敏感/最精確的。度量有多種類別，例如解釋的變異度量（例如，R ^ 2 $）及其推廣。其他措施則集中在模型實現的各種預測上。預測值的直方圖有很長的路要走。 ROC曲線設想了不同的截止值。臨界值具有誤導性和危險性；他們引起了分類思維，即，將一組中的所有人都視為具有相同特徵。另一種方法：分區偏差。

ⓘ

該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到，我們感謝它分發的cc by-sa 2.0許可。

关于 - 法律