在很多人看來,非常直覺的發現是,給定的診斷測試非常準確(例如99%)在某些情況下會比真實陽性產生大量假陽性,也就是說,與整個人口。
我看到人們經常犯這個錯誤,例如在爭取更廣泛的公共衛生檢查或更廣泛的反犯罪監測措施等爭論時,我卻迷茫不瞭如何簡潔地描述人們正在犯的錯誤。
這種現象/統計謬誤有名字嗎?失敗的話,任何人都有一個很好的,簡潔的,行話般的直覺/例子,可以幫助我向一個外行人解釋。
很抱歉,如果這是錯誤的論壇,請教。如果是這樣,請引導我去找一個更合適的人。
在很多人看來,非常直覺的發現是,給定的診斷測試非常準確(例如99%)在某些情況下會比真實陽性產生大量假陽性,也就是說,與整個人口。
我看到人們經常犯這個錯誤,例如在爭取更廣泛的公共衛生檢查或更廣泛的反犯罪監測措施等爭論時,我卻迷茫不瞭如何簡潔地描述人們正在犯的錯誤。
這種現象/統計謬誤有名字嗎?失敗的話,任何人都有一個很好的,簡潔的,行話般的直覺/例子,可以幫助我向一個外行人解釋。
很抱歉,如果這是錯誤的論壇,請教。如果是這樣,請引導我去找一個更合適的人。
不幸的是,我沒有這個謬論的名字。當我需要對此進行解釋時,我發現提到那些在外行中普遍已知但極為罕見的疾病是有用的。 我住在德國,儘管每個人都在歷史書中讀到了有關瘟疫的信息,但每個人都知道,作為德國醫生,我永遠不會診斷出真正的瘟疫病例,也不會照顧鯊魚咬傷。
當您告訴人們時,每個人都會同意的百名健康人中有一項鯊魚叮咬測試呈陽性,無論其陽性預測值有多高,該測試都沒有道理。
取決於您在世界上的哪個地方以及您的受眾是誰,可能的例子可能是鼠疫,瘋牛病(BSE),早衰,被雷擊。有許多已知的風險,人們已經意識到他們的風險遠低於1%。
編輯/添加:到目前為止,這已經吸引了3個反對意見,沒有任何評論。抵禦最可能的反對:原始海報寫道
如果沒有人有一個很好的,簡潔的,專業的直覺/例子,可以幫助我向一個外行人解釋這件事
我認為我確實做到了。 Pi先生髮布的答案要好於我發布的非專業人士的解釋,我一看到就投票支持他。
基本費率謬誤與對不同人群的專業化有關,這並未引起更廣泛的誤解,即準確性意味著低誤報率和低誤報率。
在以高的誤報率解決高精度難題時,我發現如果不向人們介紹精確度和召回率的概念,就不可能超越非常膚淺,手揮手和不准確的解釋。
用外行的話來說,只需寫出兩個感興趣的值即可,而不用過分簡化“準確率”:
診斷測試僅在提供新信息時才有用。您可以向他們證明,對於任何罕見疾病的診斷(例如,<1%的病例),構建高度準確(> 99%準確度!)的測試非常容易,同時告訴我們什麼我們還沒有了解誰真正擁有或不真正擁有它:只需告訴每個人他們沒有它。無限數量的測試具有相同的準確度,但在召回率和反之亦然。一個人甚麼都不做可以得到100%的精度或100%的精度,但是只有一個有區別的測試才能使這兩者最大化。實際計算並向他們顯示精度和召回率可以告知他們,並幫助他們明智地權衡取捨和需要更敏銳的測試。組合提供不同信息的測試可以導致更準確的診斷,即使一項或另一項測試的結果本身不可接受地不正確。
這是關鍵:測試是否為我們提供新信息?
然後還有規避風險的維度:找到一個真正的正面值值得引起多少錯誤的正面值?也就是說,您願意誤導多少人以為他們找到了可能沒有的東西,以找到確實擁有的東西?這取決於誤診的危險,誤報和誤報通常會有所不同。
編輯: 進一步的好處將是確認測試或越來越精確的測試,也許因為直到更晚才推出,才推遲到以後。因此,偏誤診斷的診斷可用於構建篩子,該篩子是一種具有成本效益的鑑別器,可儘早消除大多數真陰性。但是,這也以增加真正陽性結果的危險為代價:您希望癌症患者盡快得到治療,讓他們跳三到五個箍,每個箍需要兩個星期到一個月的預先安排,才可以獲得治療可以使他們的預後惡化一個數量級。因此,在分流進行隨訪時,應優先考慮其他較便宜的檢查,以優先考慮那些最有可能患病的患者,並在可能的情況下同時進行多次檢查。>
只需為自己繪製一個簡單的決策樹,它就會變得顯而易見。見附件。我還可以發送一個非常簡單的電子表格,以準確說明其影響。
是遊戲的末尾,但是這裡有些其他人沒有提到。
1)首先,存在一個稱為Kappa或Cohen's Kappa的統計數據,該統計數據衡量一種方法在隨機猜測方面的改進程度。對於具有兩個結果的測試,隨機猜測只是猜測多數類。例如,如果一種疾病是由1%的人口傳染的,那麼對所有人說“您沒有這種疾病”的測試就是99%的準確率。無用,但準確率達99%。 Kappa會評估測試相對於隨機猜測的改進程度。有關公式,請參閱維基百科,但大致來說,它可以衡量您的方法所捕獲的隨機性所佔的改進百分比。因此,在我的示例中,準確度為99.5%的測試的kappa為0.5,這是最佳情況下50%的1%的改善。
2)所有這些也與貝葉斯/貝葉斯定理有關。假設某種情況很少-佔總人口的0.01%,並且該條件的測試準確率為99%(並且始終能夠抓住該條件)。貝葉斯說,您先前患該病的機會是0.01%。但是,如果測試呈陽性,則患該疾病的可能性僅為(.0001 / .01)= 1%。公式為P(Cond | test = Y)= P(Cond)/ P(test = Y)。這是貝葉斯定理。
3)最後,這種看似悖論的數量,恕我直言,是事實,即概率不是直觀的。這樣的事情有不同的名字。但是,以不同的面貌出現的這種現象的例子被稱為“檢察官悖論”和“蒙蒂·霍爾”問題。我想我已經在tldnr,所以如果還不覺得煩的話,可以在Wikipedia中查找它們。
正如許多問題和答案一樣,這取決於...
對於癌症篩查(乳房X線照片,結腸鏡檢查等)和其他針對疾病或狀況的篩查測試,幾乎總是如此。為了使篩查測試具有一定的價值,它必須足夠“靈敏”,以檢測被篩查疾病的相對罕見病例(例如1%或更少)。真陽性分數(TPF)幾乎總是小於假陽性分數(FPF)。
這就是為什麼總是需要重新測試(再次應用相同的測試)或進行後續測試(可能更昂貴但具有更高的“特異性”)以消除誤報的原因。
從某種意義上說,您要輸入的名稱是“篩選測試”!
“準確度”一詞具有非常特殊的技術含義,不一定是一般含義或對情況的普遍考慮。大多數“常識”與50%50%的機會,您是否患有癌症有關。
在Wiki頁面上: https://en.wikipedia.org/wiki/Receiver_operating_characteristic
另一種表達方式是,如果多數情況正確,則測試是準確的。這是常見的定義。但是,如果這種情況很少見,並且測試是“敏感的”,它仍然可以(而且實際上應該而且必須)給出假陽性。
1%的患病率,1000次測試,10個真實陽性,20個假陽性
準確性=(10 +(1000-10-20))/ 1000 = 98%
另一種技術說法是,篩選測試傾向於在所謂的接收器工作特性(ROC)的高靈敏度(高假陽性)側進行操作。一個人想抓住所有真實的肯定,卻以錯誤的肯定為代價,將對它們進行重新測試並在很大程度上消除。
看看這個閃亮的應用程序工具 https://kennis-research.shinyapps.io/Bayes-App/,它解釋了敏感性,特異性和普遍性之間的關係。本質上,測試發現真實陽性的能力是測試有效性(敏感性和特異性)以及所測試疾病患病率的函數。
使用KISS方法向所有人解釋...保持簡單愚蠢的K.I.S.S.
在會計中,簡單的審計從特定支出或收入相對於實際銀行存款&提款的總交易額的1%樣本開始。如果不匹配或“相加”。您將樣本大小增加到5%。您發現的錯誤越多,尋找錯誤或欺詐的樣本比例就越高。高達100%。
統計學家一個更簡單的例子是大數定律。單個樣本越多,結果越準確。
相反的影響是我所說的極小數定律。意味著樣本太小,無法反映出真實的準確性。
希望這會有所幫助!