題:
誤報現像有悖於直覺的現象嗎?
Roger Heathcote
2019-10-14 16:29:22 UTC
view on stackexchange narkive permalink

在很多人看來,非常直覺的發現是,給定的診斷測試非常準確(例如99%)在某些情況下會比真實陽性產生大量假陽性,也就是說,與整個人口。

我看到人們經常犯這個錯誤,例如在爭取更廣泛的公共衛生檢查或更廣泛的反犯罪監測措施等爭論時,我卻迷茫不瞭如何簡潔地描述人們正在犯的錯誤。

這種現象/統計謬誤有名字嗎?失敗的話,任何人都有一個很好的,簡潔的,行話般的直覺/例子,可以幫助我向一個外行人解釋。

很抱歉,如果這是錯誤的論壇,請教。如果是這樣,請引導我去找一個更合適的人。

作為快速評論,有人會說該方案的“積極預測價值”很低,這可能是考慮思考如何解釋的另一條途徑。
您是說儘管測試在所有情況下的準確率都達到了99%,但測試產生的假陽性通常比真實陽性要多,或者您是說完全相同的測試基於所談論的人口子集而具有不同的行為?因為總體準確率已經暗示,很難確定真假的情況是罕見的情況。“當真實陽性人群的數量相比較時……”聽起來像是對整個人群進行測試的特徵,而不是針對亞人群的行為差異。這個對嗎?
當前答案為您提供了該詞,但您還要求提供一個示例,以幫助向外行解釋:考慮一種影響千分之一的人的疾病。當對1000個人進行99%的準確度測試時,則有10個人被錯誤分類。因此,一個人可能是一個真正的陽性,但仍然可能有9個錯誤的陽性。通常,“準確性”(作為度量)僅對*平衡*分佈有意義。否則,“信息”可能是更好的方法。有關更多示例,請參見https://en.wikipedia.org/wiki/Confusion_matrix#Table_of_confusion。
@pygosceles是的。許多人(即使不是大多數人)都有一種直覺,即準確的99%的測試意味著1%的假陽性率,而與人口中真實陽性的數量和人口規模無關。在某些情況下,高度準確的測試可以給您帶來比真實肯定更多的誤報,這與許多人的直覺相反。
@technicalbloke聽起來好像他們甚至沒有真正將正陽性率作為自己的東西考慮,也許是錯誤地將大量的真陰性+真陰性與真陽性混為一談,因為真陰性會在極少條件下驅動準確性測度,並且因此,不要說真正的陽性和假陽性率。忽略誤報聽起來像他們也可能將準確性與召回混為一談,因此需要以精確度補充其召回概念,這似乎是您關注的核心。
另請參閱:[檢察官的謬論](https://en.wikipedia.org/wiki/Prosecutor%27s_fallacy),這是其結果。
皮先生的答案最好。通俗地說,您也可以說“陽性結果信噪比低”,對於更大的人群來說(也許)更容易獲得。但這是在描述與直觀,邏輯謬論無關的情況。 這是經典的貝葉斯概率案例,通過醫學測試或狙擊手問題多次表達。http://commonsenseatheism.com/?p=13156
使用吸血鬼測試作為類比。如果您進行的測試能夠正確確定某人是否是吸血鬼,那麼它的準確率為99%,那麼“每一個”陽性都是假陽性。對於那些相信吸血鬼的人來說,這個比喻是一個相當準確的測試。
這不一定是謬論或“壞事”。對於“篩選”測試而言,可以認為這是一個良好的成本與收益權衡,該篩選是具有極高特異性的廉價測試,因此不會以低精度(很多誤報)為代價而錯過真實的實例。然後,對於可以保證具有全部真實陽性的陽性要少得多,請使用更昂貴的第二項測試來消除許多假陽性。
八 答案:
Mr Pi
2019-10-14 19:29:37 UTC
view on stackexchange narkive permalink

是的。通常將其稱為基本速率謬誤或更具體的假陽性悖論。甚至有一篇關於它的維基百科文章:請參閱此處

Bernhard
2019-10-14 18:38:09 UTC
view on stackexchange narkive permalink

不幸的是,我沒有這個謬論的名字。當我需要對此進行解釋時,我發現提到那些在外行中普遍已知但極為罕見的疾病是有用的。 我住在德國,儘管每個人都在歷史書中讀到了有關瘟疫的信息,但每個人都知道,作為德國醫生,我永遠不會診斷出真正的瘟疫病例,也不會照顧鯊魚咬傷。

當您告訴人們時,每個人都會同意的百名健康人中有一項鯊魚叮咬測試呈陽性,無論其陽性預測值有多高,該測試都沒有道理。

取決於您在世界上的哪個地方以及您的受眾是誰,可能的例子可能是鼠疫,瘋牛病(BSE),早衰,被雷擊。有許多已知的風險,人們已經意識到他們的風險遠低於1%。

編輯/添加:到目前為止,這已經吸引了3個反對意見,沒有任何評論。抵禦最可能的反對:原始海報寫道

如果沒有人有一個很好的,簡潔的,專業的直覺/例子,可以幫助我向一個外行人解釋這件事

我認為我確實做到了。 Pi先生髮布的答案要好於我發布的非專業人士的解釋,我一看到就投票支持他。

pygosceles
2019-10-16 00:31:08 UTC
view on stackexchange narkive permalink

基本費率謬誤與對不同人群的專業化有關,這並未引起更廣泛的誤解,即準確性意味著低誤報率和低誤報率。

在以高的誤報率解決高精度難題時,我發現如果不向人們介紹精確度和召回率的概念,就不可能超越非常膚淺,手揮手和不准確的解釋。

用外行的話來說,只需寫出兩個感興趣的值即可,而不用過分簡化“準確率”:

  1. 在那些患有X病的人中,測試表明患有X病的比例是多少?這是召回率。錯誤的判斷是假陰性-應該被診斷出患有這種疾病但沒有的人。
  2. 在測試所說的那些人中,有條件X的人中實際上有條件X的比例是多少?這是準確率。錯誤的判斷是誤報-我們所說的人有條件,但沒有。
  3. ol>

    診斷測試僅在提供新信息時才有用。您可以向他們證明,對於任何罕見疾病的診斷(例如,<1%的病例),構建高度準確(> 99%準確度!)的測試非常容易,同時告訴我們什麼我們還沒有了解誰真正擁有或不真正擁有它:只需告訴每個人他們沒有它。無限數量的測試具有相同的準確度,但在召回率和反之亦然。一個人甚麼都不做可以得到100%的精度或100%的精度,但是只有一個有區別的測試才能使這兩者最大化。實際計算並向他們顯示精度和召回率可以告知他們,並幫助他們明智地權衡取捨和需要更敏銳的測試。組合提供不同信息的測試可以導致更準確的診斷,即使一項或另一項測試的結果本身不可接受地不正確。

    這是關鍵:測試是否為我們提供新信息?

    然後還有規避風險的維度:找到一個真正的正面值值得引起多少錯誤的正面值?也就是說,您願意誤導多少人以為他們找到了可能沒有的東西,以找到確實擁有的東西?這取決於誤診的危險,誤報和誤報通常會有所不同。

    編輯: 進一步的好處將是確認測試或越來越精確的測試,也許因為直到更晚才推出,才推遲到以後。因此,偏誤診斷的診斷可用於構建篩子,該篩子是一種具有成本效益的鑑別器,可儘早消除大多數真陰性。但是,這也以增加真正陽性結果的危險為代價:您希望癌症患者盡快得到治療,讓他們跳三到五個箍,每個箍需要兩個星期到一個月的預先安排,才可以獲得治療可以使他們的預後惡化一個數量級。因此,在分流進行隨訪時,應優先考慮其他較便宜的檢查,以優先考慮那些最有可能患病的患者,並在可能的情況下同時進行多次檢查。>

我以為基準利率謬誤就是要忽略基準利率,即分母。如果測試具有較高的準確性,則必須已經考慮了基準匯率,因此我看不出這將是基準匯率謬誤,實際上根本沒有提及分母(基準匯率)。
@Mitch我明白您在說什麼。在特殊情況下,要測試的新種群是原始種群的子組之一,並且如果關注的度量標準是誤報率,那麼基本利率謬誤和OP所描述的問題幾乎是等效的。但是,我見過的大多數關於基準利率謬誤的定義都將這個問題視為對兩個可能完全不同的總體缺乏概括。我認為OP的問題更多與對同一人群中假陽性率與真陽性率的誤解有關。
scott
2019-10-30 10:45:36 UTC
view on stackexchange narkive permalink

只需為自己繪製一個簡單的決策樹,它就會變得顯而易見。見附件。我還可以發送一個非常簡單的電子表格,以準確說明其影響。enter image description here enter image description here

問題是關於原則的“名稱”。
+1(該問題詢問無行話的例子來向人們解釋,我認為使用這些固有頻率圖是有用的幫助)
我同意@SextusEmpiricus對此問題進行非常緊湊和清晰的表述可能會有所幫助,但是很難為細微之處和許多人尚未意識到的問題起個簡短的名字。歡迎提出建議。
@pygosceles這不是問題的答案。
meh
2019-11-01 00:37:27 UTC
view on stackexchange narkive permalink

是遊戲的末尾,但是這裡有些其他人沒有提到。

1)首先,存在一個稱為Kappa或Cohen's Kappa的統計數據,該統計數據衡量一種方法在隨機猜測方面的改進程度。對於具有兩個結果的測試,隨機猜測只是猜測多數類。例如,如果一種疾病是由1%的人口傳染的,那麼對所有人說“您沒有這種疾病”的測試就是99%的準確率。無用,但準確率達99%。 Kappa會評估測試相對於隨機猜測的改進程度。有關公式,請參閱維基百科,但大致來說,它可以衡量您的方法所捕獲的隨機性所佔的改進百分比。因此,在我的示例中,準確度為99.5%的測試的kappa為0.5,這是最佳情況下50%的1%的改善。

2)所有這些也與貝葉斯/貝葉斯定理有關。假設某種情況很少-佔總人口的0.01%,並且該條件的測試準確率為99%(並且始終能夠抓住該條件)。貝葉斯說,您先前患該病的機會是0.01%。但是,如果測試呈陽性,則患該疾病的可能性僅為(.0001 / .01)= 1%。公式為P(Cond | test = Y)= P(Cond)/ P(test = Y)。這是貝葉斯定理。

3)最後,這種看似悖論的數量,恕我直言,是事實,即概率不是直觀的。這樣的事情有不同的名字。但是,以不同的面貌出現的這種現象的例子被稱為“檢察官悖論”和“蒙蒂·霍爾”問題。我想我已經在tldnr,所以如果還不覺得煩的話,可以在Wikipedia中查找它們。

擁有Kappa一詞似乎很有幫助,因為它針對基準匯率進行了規範化處理,因此具有區分力。我一直在為希臘字母和人們的名字分配解決方案或概念而苦苦掙扎,直到我第一次意識到這個問題。貝葉斯定理確實是理解整個事物的關鍵。我先向新來者解釋這個概念,然後在發現者讚賞他的所作所為後告訴他們發現者的名字。
Curt
2019-10-30 20:47:39 UTC
view on stackexchange narkive permalink

正如許多問題和答案一樣,這取決於...

對於癌症篩查(乳房X線照片,結腸鏡檢查等)和其他針對疾病或狀況的篩查測試,幾乎總是如此。為了使篩查測試具有一定的價值,它必須足夠“靈敏”,以檢測被篩查疾病的相對罕見病例(例如1%或更少)。真陽性分數(TPF)幾乎總是小於假陽性分數(FPF)。

這就是為什麼總是需要重新測試(再次應用相同的測試)或進行後續測試(可能更昂貴但具有更高的“特異性”)以消除誤報的原因。

從某種意義上說,您要輸入的名稱是“篩選測試”!

“準確度”一詞具有非常特殊的技術含義,不一定是一般含義或對情況的普遍考慮。大多數“常識”與50%50%的機會,您是否患有癌症有關。

在Wiki頁面上: https://en.wikipedia.org/wiki/Receiver_operating_characteristic

accuracy

另一種表達方式是,如果多數情況正確,則測試是準確的。這是常見的定義。但是,如果這種情況很少見,並且測試是“敏感的”,它仍然可以(而且實際上應該而且必須)給出假陽性。

1%的患病率,1000次測試,10個真實陽性,20個假陽性

準確性=(10 +(1000-10-20))/ 1000 = 98%

另一種技術說法是,篩選測試傾向於在所謂的接收器工作特性(ROC)的高靈敏度(高假陽性)側進行操作。一個人想抓住所有真實的肯定,卻以錯誤的肯定為代價,將對它們進行重新測試並在很大程度上消除。

與jmf7有關陽性預測值的帖子相關,篩查測試被設計為具有較高的“陰性預測值”,或者可以肯定地說患者沒有疾病/狀況。 不幸但不可避免的情況是假陽性,然後進入後續測試的下一階段。即使對統計學和概率進行了很好的解釋和理解,也常常會不可避免地出現焦慮。
我真的很喜歡您介紹了“特異性”的概念-令我驚訝的是,沒有將針對選擇性和特異性作為與之相關的科學概念進行比較的深入探討。
LDBerriz
2019-11-01 19:29:03 UTC
view on stackexchange narkive permalink

看看這個閃亮的應用程序工具 https://kennis-research.shinyapps.io/Bayes-App/,它解釋了敏感性,特異性和普遍性之間的關係。本質上,測試發現真實陽性的能力是測試有效性(敏感性和特異性)以及所測試疾病患病率的函數。

Clyde Wilbur
2019-10-31 00:13:18 UTC
view on stackexchange narkive permalink

使用KISS方法向所有人解釋...保持簡單愚蠢的K.I.S.S.

在會計中,簡單的審計從特定支出或收入相對於實際銀行存款&提款的總交易額的1%樣本開始。如果不匹配或“相加”。您將樣本大小增加到5%。您發現的錯誤越多,尋找錯誤或欺詐的樣本比例就越高。高達100%。

統計學家一個更簡單的例子是大數定律。單個樣本越多,結果越準確。

相反的影響是我所說的極小數定律。意味著樣本太小,無法反映出真實的準確性。

希望這會有所幫助!



該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 4.0許可。
Loading...