此xkcd漫畫(頻繁主義者與貝葉斯主義者)取笑了一個頻繁統計學家,得出了明顯錯誤的結果。在我看來,他的推理實際上是正確的,因為它遵循標準的頻率論者方法。
所以我的問題是“他正確地採用了常客論方法嗎?”
- 如果否:在這種情況下正確的常客推斷是什麼?如何在頻率論方法中整合關於太陽穩定性的“先驗知識”?
- 如果是,請問:wtf? ;-)
此xkcd漫畫(頻繁主義者與貝葉斯主義者)取笑了一個頻繁統計學家,得出了明顯錯誤的結果。在我看來,他的推理實際上是正確的,因為它遵循標準的頻率論者方法。
所以我的問題是“他正確地採用了常客論方法嗎?”
主要問題是,第一個實驗(太陽升起的新星)是不可重複的,這使其非常不適用於將概率解釋為對事件發生頻率的估計的頻繁主義者方法,這樣我們就可以多次重複該實驗。相反,貝葉斯概率被解釋為我們的信念程度,給出了所有可用的先驗知識,使其適合於有關一次事件的常識性推理。擲骰子實驗是可重複的,但我發現任何常客都不大可能故意忽略第一個實驗的影響,並對獲得的結果的意義如此自信。
儘管似乎作者嘲笑常客依靠可重複的實驗及其對先驗的不信任,使實驗裝置不適合常客主義的方法,我想說,這部漫畫的真正主題不是常客主義的方法,而是盲目的追隨不合適的方法論。不管是否有趣,取決於您(對我而言),但是我認為,比弄清兩種方法之間的差異,它更容易引起誤解。
據我所知,到目前為止,常客位是合理的:
讓$ H_0 $是太陽沒有爆炸的假設,而$ H_1 $是太陽沒有爆炸的假設。因此,p值是在$ H_0 $下觀察結果(機器說“是”)的概率。假設機器正確地檢測到中微子的存在,那麼如果機器在$ H_0 $下說“是”,那是因為機器由於撒了兩個六分而對我們說謊。因此,p值為1/36,因此按照正常的準菲舍爾科學實踐,常客會拒絕無效假設,即在95%的顯著性水平上。。
但是否定原假設並不意味著您有權接受其他假設,因此分析無法證明常客的結論是正確的。經常性假設檢驗體現了證偽主義(某種程度)的思想,您不能證明任何事情都是真實的,只能反駁。因此,如果要斷定$ H_1 $,則假定$ H_0 $為真,並且僅當可以顯示$ H_0 $與數據不一致時才繼續操作。但是,這並不意味著$ H_1 $是正確的,只是它可以經受住檢驗並至少在下一個檢驗中繼續作為可行的假設。
貝葉斯方法也只是常識,請注意下注不會有任何損失。我敢肯定,如果考慮到錯誤肯定和錯誤否定的成本(Neyman-Peason?),那麼常客主義的方法將得出與長期收益最佳策略相同的結論。
總結:此處的常客和貝葉斯人都很草率:常客在不考慮適當的顯著水平,不正確/不正確的成本或問題的物理性質(即不使用他的常識)。貝葉斯人由於沒有明確說明先驗而草率,但是再次使用常識,他所使用的先驗顯然是正確的(機器躺著比太陽實際爆炸的可能性更大),草率也許是可以原諒的。
為什麼這個結果看起來“錯誤”?貝葉斯會說結果似乎是違反直覺的,因為我們對太陽何時會爆炸具有“先驗”的信念,並且該機器提供的證據還不足以洗去這些信念(主要是由於不確定性,因為硬幣翻轉)。但是,常客能夠做出這樣的評估,他只是必須在數據的背景下進行評估,而不是相信。
悖論的真正根源在於,所進行的常客統計檢驗並沒有做到這一點。不會考慮所有可用數據。漫畫中的分析沒有問題,但是結果似乎很奇怪,因為我們知道太陽很可能不會長時間爆炸。但是我們怎麼知道呢?因為我們進行了測量,觀察和模擬,可以限制太陽何時爆炸。因此,我們的全部知識應考慮這些度量和數據點。
在貝葉斯分析中,這是通過使用這些度量構建先驗來完成的(儘管將度量轉換為先驗的過程沒有明確定義:在某些時候必須存在初始先驗,否則會“一直烏龜”。因此,當貝葉斯人使用他的先驗知識時,他實際上是在考慮很多其他信息,這些信息通常是對頻繁主義者的p值分析不了解的。
因此,要保持平等,完全是一個頻繁主義者對問題的分析應包括與用於構造貝葉斯先驗的太陽爆炸相同的其他數據。但是,代替使用先驗,常客只會簡單地擴展他用來合併其他度量的可能性,而他的p值將使用該完全可能性來計算。
$ L = L $(Machine說是|太陽已經爆炸了)* $ L $(關於太陽的所有其他數據|太陽已經爆炸了)
全面的頻繁主義者分析很可能表明,可能性的第二部分將受到更大的約束,並且將成為p值計算的主要貢獻(因為我們擁有大量有關太陽的信息,並且存在誤差
實際上,人們不必走出去收集過去500年中獲得的所有數據點就可以進行頻繁計算,可以將它們近似為一個簡單的似然項。編碼關於太陽是否爆炸的不確定性。然後,這將與貝葉斯先驗相似,但是在哲學上稍有不同,因為它是可能的,這意味著它編碼了一些先前的度量(而不是先驗,後者編碼了先驗的信念)。與貝葉斯先驗相反,該新術語將成為可能性的一部分,並將用於建立置信區間(或p值或其他值),而貝葉斯先驗則被積分形成可信區間或後驗。
我看到的最大問題是沒有派生測試統計信息。將測試統計量$ T $的值$ t $的$ p $ -value(貝葉斯統計學家對此提出的所有批評)定義為$ {\ rm Prob} [T \ ge t | H_0] $(假設對於$ T $的較大值,將拒絕該空值,例如對於$ \ chi ^ 2 $統計信息而言)。如果您需要做出更重要的決定,則可以增加臨界值並進一步將拒絕區域推高。實際上,這就是Bonferroni等多項測試更正所做的,指示您為$ p $值使用低得多的閾值。取而代之的是,常客統計學家只能用$ 0、1 / 36、2 / 36,\ ldots $的網格進行大小檢驗。
當然,這種“常客”方法是不科學的,因為結果將難以再現。太陽一旦成為超新星,它將保持超新星狀態,因此探測器應不斷重複說“是”。但是,重複運行此機器不太可能再次產生“是”結果。這在想要表現出自己的嚴謹並試圖重現其實驗結果的領域中得到認可……據我所知,發生的可能性在5%之間(出版原始論文是純粹的I類錯誤)和在某些醫療領域中大約佔30-40%。薈萃分析人員可以為您提供更好的數據,這只是統計葡萄藤上不時傳來的嗡嗡聲。
從“適當的”常客的角度來看,另一個問題是,擲骰子是最不強大的測試,力量=顯著性水平(如果不更低;對於5%顯著性水平,則為2.7%的力量無可厚非)。內曼-皮爾森(Neyman-Pearson)的t檢驗理論證明了這是一個UMPT,對此感到很痛苦,許多高額眉頭統計理論(我幾乎不了解,我不得不承認)致力於推導冪曲線並在給定給定值時找到條件測試是給定班級中最強大的測試。 (信用:@Dikran Marsupial在評論中提到了權力問題。)
我不知道這是否困擾您,但此處顯示的貝葉斯統計學家是不懂數學和有賭博問題。合適的貝葉斯統計學家會假設先驗,討論其客觀程度,得出後驗,並證明他們從數據中學到了多少。沒有做任何事情,所以貝葉斯過程被簡化得和常客一樣多。
這種情況說明了對癌症問題的經典篩查(而且我相信生物統計學家可以比我更好地描述它)可以)。當使用不完善的儀器篩查罕見疾病時,大多數陽性結果都是假陽性。精明的統計學家知道這一點,並且更懂得用便宜且骯髒的篩查儀進行更昂貴,更準確的活檢。
這部漫畫沒什麼問題,原因與統計無關。這是經濟學。如果常客是正確的,那麼地球將在48小時內變得無人居住。 \ $ 50的值實際上為空。貝葉斯意識到這一點,就可以打賭,知道他的收益在正常情況下為\ $ 50,而在陽光暴晒的情況下幾乎沒有。
現在,歐洲核子研究組織(CERN)決定中微子的速度不比光快-在註意到中微子變化之前,電磁輻射激波鋒將撞擊地球。至少(在短期內)這將產生極好的極光效果。因此,黑暗的事實並不能防止天空被照亮。人造衛星被汽化並自燃時,月亮照得過分明亮(參見拉里·尼文(Larry Niven)的“不變的月亮”)和壯觀的閃光。
總而言之-也許是錯誤的測試? (雖然可能有事前通知-沒有足夠的時間來實際確定後驗。
我同意@GeorgeLewis的觀點,認為Frequentist方法是錯誤的還為時過早-讓我們再運行中微子探測器幾次以收集更多數據。無需弄亂先驗。
在所有詳細答案中可能會遺漏的一個更簡單的觀點是,描繪了常客是根據單個樣本得出結論的。在實踐中,您永遠都不會這樣做。
得出有效的結論需要具有統計意義的樣本量(換句話說,科學需要是可重複的)。因此,在實踐中,常客會多次運行計算機,然後得出有關結果數據的結論。
大概這將需要多次向機器詢問相同的問題。並且,假設機器每36次故障僅一次,就會出現清晰的圖案。從這種模式(而不是一次閱讀),常客會得出一個關於太陽是否爆炸的結論(相當準確,我會說)。
您問題的答案:“他是否正確地採用了常客主義方法?”是的,他沒有精確地採用常客主義的方法。這個問題的p值不完全是1/36。
我們首先必須注意所涉及的假設是
H0:太陽尚未爆炸,
H1:太陽爆炸了。
然後,
p值= P(“機器返回yes” |太陽沒有爆炸)。
要計算該概率,我們必須注意“機器返回是”等同於“中微子探測器測量到太陽爆炸並告訴真實結果,或者中微子探測器沒有測量到太陽爆炸並向我們說謊”。
假定擲骰子與中微子探測器的測量無關,我們可以通過定義以下內容來計算p值:
p0 = P(“中微子探測器測量太陽爆炸” |太陽尚未爆炸),
然後,p值是
p值= p0 x 35/36 +(1-p0)x 1/36 = (1/36)x(1+ 34 x p0)。
對於此問題,p值是介於1/36和35/36之間的數字。當且僅當p0 = 0時,p值等於1/36。也就是說,該動畫片中的一個隱含假設是,如果太陽沒有爆炸,探測器將永遠不會測量太陽的爆炸。
此外,應該插入更多的信息,以求得有關外部證據的可能性。不斷發生的爆炸。
一切順利。
我認為常客的方法沒有任何問題。如果否定假設被拒絕,則p值是類型1錯誤的概率。類型1錯誤拒絕了真實的零假設。在這種情況下,我們的p值為0.028。這意味著在曾經進行過該p值的所有假設檢驗中,每100個樣本中大約有3個將拒絕真實的零假設。通過構造,這將是其中一種情況。經常有人接受,有時他們會拒絕真實的零假設或保留錯誤的零假設(類型2錯誤),但他們從未主張過。而且,從長遠來看,它們可以精確地量化錯誤推論的頻率。由於兩個假設很簡單,所以這很容易做到。如果零是太陽變新星,則p值為35/36 = 0.972。這意味著沒有證據反對太陽變新的假設,因此我們不能根據這個結果拒絕它。這似乎更合理。如果你在想。為什麼有人會假設太陽變新星了?我問你。如果突然想到太陽爆炸,為什麼有人會進行這樣的實驗?
我認為這只是表明人們必須事先評估實驗的有用性。例如,該實驗將完全無用,因為它僅通過仰望天空即可測試我們已經知道的東西(我確定產生的p值實際上為零)。設計好的實驗是產生好的科學的要求。如果您的實驗設計不當,那麼無論您使用哪種統計推斷工具,您的結果都不太可能有用。
如何在頻率論方法中整合關於太陽穩定性的“先驗知識”?
一個非常有趣的話題。
這裡只是一些想法,並非完美的分析...
將貝葉斯方法與非信息先驗一起使用通常可以提供與常客相比可比的統計推斷。
為什麼貝葉斯先驗強烈相信太陽沒有爆炸?因為他每個人都知道太陽從開始就從未爆炸過。
我們可以在一些具有共軛先驗的簡單統計模型上看到,使用先驗分佈等效於使用從中得出的後驗分佈
上面的句子暗示,頻率論者應通過將初步實驗的結果納入其模型來得出貝葉斯結論。 這就是貝葉斯人的實際工作:他的先驗來自對初步實驗的了解!
讓$ N $是太陽的天數,而$ x_i $是第i天的太陽狀態(0 =爆炸/ 1 =不爆炸)。假設$ x_i $是伯努利的i.i.d變量,成功概率為\\ theta $。已經觀察到$ x_i $的實現:對於所有$ i = 1,\ ldots,N $,$ x_i = 1 $。
在當前問題中,我們有$ N + 1 $個觀察值: $ x_i $和檢測器的結果$ y = \ {\ text {Yes} \} $。自然的問題是:太陽爆炸的概率是多少,即$ \ Pr(x_ {N + 1} = 0)$是多少?這是$ \ theta $,並根據可用觀察值$ x_1,\ ldots,x_N $和$ y $估算$ \ theta $,因為$ N $很大,而“意外”值$ y = \ {\ text {Yes} \} $對$ \ theta $的估算影響可忽略不計。貝葉斯打算通過他的先前分佈來反映此信息。
從這個角度來看,我沒有看到如何從假設檢驗的角度來重新表述這個問題。取$ H_0 = \ {\ text {太陽還沒有爆炸} \} $沒有道理,因為在我的解釋中,這可能是實驗的問題,而不是正確/錯誤的假設。也許這是常客的錯誤?
這當然是一個頻繁的0.05級檢驗-在原假設下,原假設被拒絕的時間不到5%,甚至在替代方法下的功效也很大。
另一方面,先驗信息告訴我們,在某個特定時間太陽極不可能出現超新星,但是偶然撒謊的可能性更大。
最重要的是:漫畫並沒有什麼大不了,這表明檢驗不合理的假設會導致較高的錯誤發現率。此外,您可能希望在評估提供的投注時考慮先驗信息-這就是為什麼貝葉斯後驗與決策分析相結合如此受歡迎的原因。
在我看來,更正確的頻率分析如下:H0:太陽已經爆炸,機器正在說真話。H1:太陽沒有爆炸並且機器在說謊。
此處的p值為= P(太陽爆炸)。 p(機器說的是實話)= 0.97。 P(太陽爆炸)
統計學家在不知道第二概率的性質的情況下無法得出任何結論。
儘管我們知道P(太陽爆炸)為0,因為太陽像星星一樣不要爆炸成超新星。