題:
XKCD的Frequentists vs.Bayesians漫畫有什麼問題?
repied2
2012-11-11 21:56:04 UTC
view on stackexchange narkive permalink

xkcd comic number 1132

此xkcd漫畫(頻繁主義者與貝葉斯主義者)取笑了一個頻繁統計學家,得出了明顯錯誤的結果。在我看來,他的推理實際上是正確的,因為它遵循標準的頻率論者方法。

所以我的問題是“他正確地採用了常客論方法嗎?”

  • 如果否:在這種情況下正確的常客推斷是什麼?如何在頻率論方法中整合關於太陽穩定性的“先驗知識”?
  • 如果是,請問:wtf? ;-)
在蓋爾曼博客上的討論:http://andrewgelman.com/2012/11/16808/
從常客和貝葉斯的角度來看,我認為很多錯誤。我最大的批評是:首先,P值最終是試探法,是包括統計問題,數據和實驗在內的許多事物的屬性。在這裡,這三個問題對於這個特定問題都被嚴重歪曲了。其次,“貝葉斯”使用決策理論方法,而不必是貝葉斯。不過很有趣。
要將其排除在統計領域之外。...太陽的質量不足以產生新星。 QED,貝葉斯是正確的。 ([太陽將變成紅色巨人](http://simple.wikipedia.org/wiki/Sun#The_fate_of_the_Sun))
特別是@Glen等,請注意Randall Munroe對Gelman的回复:http://andrewgelman.com/2012/11/16808/#comment-109366
我相信漫畫會混淆**估計**和假設檢驗**(基本錯誤!)。機器使用決策理論方法“估計”事件的概率。根據決策規則,結果為0或1。常客統計學家將其與p值相關聯(為什麼?只是為了好玩)。他/她應該將此值與點估計器相關聯。
關於Larry博客的討論和回應:[http://normaldeviate.wordpress.com/2012/11/09/anti-xkcd](http://normaldeviate.wordpress.com/2012/11/09/anti-xkcd)
這裡的常客統計學家之所以愚蠢,並不是因為他是常客,而是因為他顯然知道機器的工作原理,因此知道這是不適當的度量,並且無論如何都可以進行推斷。
在此特定示例中,即使貝葉斯極有可能相信太陽*變新星,貝葉斯人也會下注,因為*獲勝的邊際收益($ 50),而損失沒有邊際成本(在這種情況下,金錢意義不大)。
應當指出的是,即使考慮到這筆錢在兩個結果中的預期效用,即使Sun真的有新星發生的可能性是35/36,將其押注$ 50還是有道理的。
值得指出的一件事是,頻率主義者沒有正確使用他們自己的方法,如下所述。但是我發現這對NHST的*濫用*是一個很好的評論,這在許多研究領域都是一個非常現實的問題。
人們也可以將此漫畫讀為諷刺漫畫,因為它被構造成“不允許的”程序。因此,理論建議不要使用它,在實踐中沒有古典統計學家會首先推薦它。
十三 答案:
Matija Piskorec
2012-11-12 22:27:57 UTC
view on stackexchange narkive permalink

主要問題是,第一個實驗(太陽升起的新星)是不可重複的,這使其非常不適用於將概率解釋為對事件發生頻率的估計的頻繁主義者方法,這樣我們就可以多次重複該實驗。相反,貝葉斯概率被解釋為我們的信念程度,給出了所有可用的先驗知識,使其適合於有關一次事件的常識性推理。擲骰子實驗是可重複的,但我發現任何常客都不大可能故意忽略第一個實驗的影響,並對獲得的結果的意義如此自信。

儘管似乎作者嘲笑常客依靠可重複的實驗及其對先驗的不信任,使實驗裝置不適合常客主義的方法,我想說,這部漫畫的真正主題不是常客主義的方法,而是盲目的追隨不合適的方法論。不管是否有趣,取決於您(對我而言),但是我認為,比弄清兩種方法之間的差異,它更容易引起誤解。

(+1)關於[常態性可重複性的[強而關鍵]假設的一個很好的參考是[科學中的統計推斷(2000)](http://www.amazon.com/Statistical-Inference-Science-D-Sprott/ dp / 0387950192),第1章。(儘管有很多問題,很難分辨哪個是*主要*一個)
用可重複性論據不是那麼快...首先,可重複的實驗是對機器的查詢,而不是太陽升起的新星。* that *的真相是固定但未知的推理對象。當然,可以重複進行查詢實驗,如果再進行幾次查詢,則頻繁使用策略似乎很合理。
其次,無論如何,對可重複性業務都不應該太嚴格,以免常旅客在非實驗情況下根本無法推斷任何東西。暫時假設“太陽變新星”是候選事件。我不是物理學家,但是我被告知“太陽升起新星”事件發生的頻率非常高(在這裡不多發生),所以在我看來,這就像重複一樣。無論如何,像大衛·考克斯(David Cox)這樣的人(在“統計基金會”(Foundation of Statistics)中)興高采烈地說:“預期的重複*幾乎總是假想的*。這本身似乎沒有缺點”。
我們可以將太陽視為來自平行宇宙中一群太陽的隨機樣本,原則上只要有量子鏡,我們就可以重複實驗! ; o)
為什麼對太陽爆炸的檢查不能重複進行?我每天早上檢查,並且還沒有炸開。
可重複的實驗是擲骰子-因此,*機器*說出真相(太陽已經爆炸)的概率為1/36,在0.05閾值之內。貝葉斯定理在應用頻率計算之前考慮了一個謂詞(概率*,如果P為真*),在這種情況下,事實是它們仍然存在並正在談論它。
Dikran Marsupial
2012-11-12 18:41:46 UTC
view on stackexchange narkive permalink

據我所知,到目前為止,常客位是合理的:

讓$ H_0 $是太陽沒有爆炸的假設,而$ H_1 $是太陽沒有爆炸的假設。因此,p值是在$ H_0 $下觀察結果(機器說“是”)的概率。假設機器正確地檢測到中微子的存在,那麼如果機器在$ H_0 $下說“是”,那是因為機器由於撒了兩個六分而對我們說謊。因此,p值為1/36,因此按照正常的準菲舍爾科學實踐,常客會拒絕無效假設,即在95%的顯著性水平上。。

但是否定原假設並不意味著您有權接受其他假設,因此分析無法證明常客的結論是正確的。經常性假設檢驗體現了證偽主義(某種程度)的思想,您不能證明任何事情都是真實的,只能反駁。因此,如果要斷定$ H_1 $,則假定$ H_0 $為真,並且僅當可以顯示$ H_0 $與數據不一致時才繼續操作。但是,這並不意味著$ H_1 $是正確的,只是它可以經受住檢驗並至少在下一個檢驗中繼續作為可行的假設。

貝葉斯方法也只是常識,請注意下注不會有任何損失。我敢肯定,如果考慮到錯誤肯定和錯誤否定的成本(Neyman-Peason?),那麼常客主義的方法將得出與長期收益最佳策略相同的結論。

總結:此處的常客和貝葉斯人都很草率:常客在不考慮適當的顯著水平,不正確/不正確的成本或問題的物理性質(即不使用他的常識)。貝葉斯人由於沒有明確說明先驗而草率,但是再次使用常識,他所使用的先驗顯然是正確的(機器躺著比太陽實際爆炸的可能性更大),草率也許是可以原諒的。

您說:拒絕原假設並不意味著您有權接受替代假設,並且:這並不意味著H1是正確的。那麼,這意味著拒絕太陽沒有成為超新星的原假設嗎?
拒絕零假設只是意味著如果H0為真,則該觀察不太可能。您不應該在此基礎上“接受” H1,因為這基本上是在說H1必須為真,因為如果H0為真,則觀察不太可能。但是,在H1(無效禮儀忽略)下觀察也不太可能,並且H1比先驗H0(無效禮儀也忽略)的可能性小。接受假設是將慣常測驗解釋為貝葉斯測驗的一種傾向,這通常會在基本情況較少的情況下造成誤解。
在這種情況下,採取這一步驟在直覺上是合理的,但在更複雜的情況下則不應該這樣做,並且不應將統計推理與直觀推理隱式地混合在一起。最好還是謹慎一點。
剛發現您的評論。我也有與@glassy相同的問題。我想反對您的評論,如果您的假設涵蓋事件的整個範圍,這裡是{“太陽升了新星”,“太陽升了新星”},那麼我很難理解您的觀點如何拒絕“太陽變新星”不會自動導致“太陽變新星”。聲明為假意味著該否定必須為真。如果您可以提供一些可靠的參考文本,並且在可能的情況下清楚地說明了這一點,那就太好了。我想了解更多有關它的信息。
拒絕原假設*並非*自動*表示原假設可能是錯誤的,只是繼續選擇假設是合理的。這是(部分)因為常識性假設檢驗未考慮假設的先驗概率。從根本上說,不能使用頻繁主義者的方法為任何特定假設的真相分配概率,因此就目前而言,“我們可以拒絕原假設”和“原假設可能是錯誤的”之間的聯繫是完全主觀的。我可以看到。
建立這種主觀聯繫通常是非常合理和直觀的,但是正如我說的那樣,這是一個滑坡,導致p值謬誤(以及其他錯誤)。最好不要基於“無效儀式”測試接受任何東西,而只是將其用作健全性檢查,以免被我們對替代(研究)假設的熱情所迷惑。
考慮一下,如果我們明年每年從中微子計數器中讀取數據,會發生什麼情況。由於它在36中有一天提供了虛假警報,因此該警報極有可能在一年中至少發出一次。如果確實如此,應該假設H0必須為假,因為p值小於0.05,並且H1為真(即太陽升為超新星),還是應該假設警報是隨機發出的? p值可以告訴您通過隨機機會觀察到結果的可能性,但這與它由於隨機機會而發生的概率不同。
我也認為奇怪的是,拒絕null不會導致接受H1,但是這種混淆似乎主要是術語上的。您似乎在這裡使用了“拒絕”一詞來表示“在0.05水平上拒絕”(或任何其他固定水平)。但是,*非凡的主張需要非凡的證據*,並且沒有理智的人會檢驗$ \ alpha = 0.05 $的太陽是否已經變新,以及費舍爾等人的著名報價。因此,如果我們將“拒絕”的意思表示為“*實際上*在現實世界中拒絕”,拒絕H0通常會導致接受H1,因此認為它是真實的。
這是我的觀點,關於是否接受H1的決定是主觀的,不是測試結果“拒絕H0確實確實會導致接受H1”的必要結果。問題是您需要做出決策[P(H0),P(H1),P(Z | H1)]的信息不會出現在測試中。從本質上講,此信息中的某些信息部分包含在設置閾值中,但這通常是不完整的,並且常常不加說明和不合理。先驗者仍然在常客測驗中存在,同樣主觀,但隱含-兩全其美!; o)
@Dikran,我完全同意先驗知識仍然存在,並告知$ \ alpha $的選擇,但我不同意您的措辭,並認為這會使其他讀者感到困惑!我的觀點是:當我作為研究人員“拒絕”空值時,我確實接受並希望我的讀者相信它是真的,因此“接受” H1。這就是我建議使用“拒絕”一詞的方式。如果我堅信H0,請運行一些測試並獲得$ p = 0.01 $,即使我必須“ dikran-reject”,我也不願意“ amoeba-reject”它。我的建議是對“ amoeba-reject”使用“ reject”。
我要說的是,您主觀上選擇接受H1,但測試邏輯並不強迫您這樣做,只是因為您可以拒絕H0。這樣做的原因是測試不以任何方式涉及P(z | H1),這對於確定H1是否正確非常重要。問題不在於單詞“拒絕”,而在於單詞“接受”,它誇大了原假設檢驗可以真正告訴您的內容。
@Dikran,我想我們彼此了解得很深,應該停止濫用評論部分,但是最後一句話:如果我*主觀選擇*拒絕[amoeba-reject] H0,則我主觀地選擇接受H1,因為我*主觀選擇了* $ \alpha $基於我對P(H1)的*主觀*專家評估。說“我不會因為拒絕變形蟲H0而被迫接受H1”沒有任何語言意義。但是我確實同意“我不會因為僅僅可以拒絕5%的H0而被迫接受H1”。我的主要觀點:**能夠拒絕5%的H0 ** $ \ ne $ **拒絕**。
啊,我明白了你在做些什麼。
GeorgeLewis
2012-11-12 19:58:49 UTC
view on stackexchange narkive permalink

為什麼這個結果看起來“錯誤”?貝葉斯會說結果似乎是違反直覺的,因為我們對太陽何時會爆炸具有“先驗”的信念,並且該機器提供的證據還不足以洗去這些信念(主要是由於不確定性,因為硬幣翻轉)。但是,常客能夠做出這樣的評估,他只是必須在數據的背景下進行評估,而不是相信。

悖論的真正根源在於,所進行的常客統計檢驗並沒有做到這一點。不會考慮所有可用數據。漫畫中的分析沒有問題,但是結果似乎很奇怪,因為我們知道太陽很可能不會長時間爆炸。但是我們怎麼知道呢?因為我們進行了測量,觀察和模擬,可以限制太陽何時爆炸。因此,我們的全部知識應考慮這些度量和數據點。

在貝葉斯分析中,這是通過使用這些度量構建先驗來完成的(儘管將度量轉換為先驗的過程沒有明確定義:在某些時候必須存在初始先驗,否則會“一直烏龜”。因此,當貝葉斯人使用他的先驗知識時,他實際上是在考慮很多其他信息,這些信息通常是對頻繁主義者的p值分析不了解的。

因此,要保持平等,完全是一個頻繁主義者對問題的分析應包括與用於構造貝葉斯先驗的太陽爆炸相同的其他數據。但是,代替使用先驗,常客只會簡單地擴展他用來合併其他度量的可能性,而他的p值將使用該完全可能性來計算。

$ L = L $(Machine說是|太陽已經爆炸了)* $ L $(關於太陽的所有其他數據|太陽已經爆炸了)

全面的頻繁主義者分析很可能表明,可能性的第二部分將受到更大的約束,並且將成為p值計算的主要貢獻(因為我們擁有大量有關太陽的信息,並且存在誤差

實際上,人們不必走出去收集過去500年中獲得的所有數據點就可以進行頻繁計算,可以將它們近似為一個簡單的似然項。編碼關於太陽是否爆炸的不確定性。然後,這將與貝葉斯先驗相似,但是在哲學上稍有不同,因為它是可能的,這意味著它編碼了一些先前的度量(而不是先驗,後者編碼了先驗的信念)。與貝葉斯先驗相反,該新術語將成為可能性的一部分,並將用於建立置信區間(或p值或其他值),而貝葉斯先驗則被積分形成可信區間或後驗。

這應該是公認的或投票最多的答案。
StasK
2012-11-12 00:48:43 UTC
view on stackexchange narkive permalink

我看到的最大問題是沒有派生測試統計信息。將測試統計量$ T $的值$ t $的$ p $ -value(貝葉斯統計學家對此提出的所有批評)定義為$ {\ rm Prob} [T \ ge t | H_0] $(假設對於$ T $的較大值,將拒絕該空值,例如對於$ \ chi ^ 2 $統計信息而言)。如果您需要做出更重要的決定,則可以增加臨界值並進一步將拒絕區域推高。實際上,這就是Bonferroni等多項測試更正所做的,指示您為$ p $值使用低得多的閾值。取而代之的是,常客統計學家只能用$ 0、1 / 36、2 / 36,\ ldots $的網格進行大小檢驗。

當然,這種“常客”方法是不科學的,因為結果將難以再現。太陽一旦成為超新星,它將保持超新星狀態,因此探測器應不斷重複說“是”。但是,重複運行此機器不太可能再次產生“是”結果。這在想要表現出自己的嚴謹並試圖重現其實驗結果的領域中得到認可……據我所知,發生的可能性在5%之間(出版原始論文是純粹的I類錯誤)和在某些醫療領域中大約佔30-40%。薈萃分析人員可以為您提供更好的數據,這只是統計葡萄藤上不時傳來的嗡嗡聲。

從“適當的”常客的角度來看,另一個問題是,擲骰子是最不強大的測試,力量=顯著性水平(如果不更低;對於5%顯著性水平,則為2.7%的力量無可厚非)。內曼-皮爾森(Neyman-Pearson)的t檢驗理論證明了這是一個UMPT,對此感到很痛苦,許多高額眉頭統計理論(我幾乎不了解,我不得不承認)致力於推導冪曲線並在給定給定值時找到條件測試是給定班級中最強大的測試。 (信用:@Dikran Marsupial在評論中提到了權力問題。)

我不知道這是否困擾您,但此處顯示的貝葉斯統計學家是不懂數學和有賭博問題。合適的貝葉斯統計學家會假設先驗,討論其客觀程度,得出後驗,並證明他們從數據中學到了多少。沒有做任何事情,所以貝葉斯過程被簡化得和常客一樣多。

這種情況說明了對癌症問題的經典篩查(而且我相信生物統計學家可以比我更好地描述它)可以)。當使用不完善的儀器篩查罕見疾病時,大多數陽性結果都是假陽性。精明的統計學家知道這一點,並且更懂得用便宜且骯髒的篩查儀進行更昂貴,更準確的活檢。

如果我正確理解了您的第一段,則表示閾值(漫畫中的0.05)設置得太高。如果漫畫有五個骰子而不是兩個,那麼您會接受這個閾值足夠低嗎?無論如何,您如何確定閾值?
我認為貝葉斯統計學家只是考慮到太陽爆炸的機會比機器躺下的機會要小得多(因此,不一定是無知的賭徒)。
更重要的是:如果太陽升起,下注的贏家將無法兌現他的50美元...
有一個測試統計數據,但是它是二進制的,即機器的輸出,有點像拋硬幣一次,它要么一次出現正面,要么一次出現尾部,但是您仍然可以通過二項分佈來描述它並執行( (不是非常有用的)測試硬幣的公正性。
我認為這裡的要點是,常客統計學家遵循的是食譜,而不考慮分析的真正目的。所謂的“貝葉斯”實際上並不是貝葉斯,而是使用常識的人。科學期刊上有很多盲目食譜的例子,這就是為什麼動畫片很有趣的原因。
如果我們正在談論遵循這些食譜,那麼貝葉斯算法應該已經運行了1M次,將前500K丟棄為老化時間,並提供了收斂性診斷。可以設置Dirichlet流程,以防萬一世界有不同的狀態以及是/否答案的二項式分佈的混合。我也沒有在漫畫中看到那樣。
貝葉斯方法的優點之一可能是它不適合烹飪統計方法,因為它沒有任何配方,而且過程十分艱鉅,以至於鼓勵我們在執行該方法之前更充分地解決問題。分析。如果實際上有MCMC的配方,那就太好了,據我所知,它仍然有些妖black。
一旦在SAS(用於生存模型,並且現在可能還用於其他模型)或AMOS和Mplus(潛在變量模型)中使用,就可以了。我不希望後者的普通用戶甚至了解Gibbs採樣器的功能。我已經看到不太熟練的用戶將模型擬合為“ lmer”,然後將點估計和標準誤差用作其先驗的均值和標準偏差...並重新分析相同的數據,現在以貝葉斯方式進行分析。統計學中任何有用的東西的準備工作在很大程度上都是不可阻擋的,而NHST就是其中之一。
是的,我認為該動畫片作為反菜譜玩笑的效果要好於貝葉斯V頻率論。與貝葉斯方法相比,頻率論者方法更適合遵循食譜,但您是對的,軟件可以對此做出重大更改是正確的(原文如此)。
缺乏測試統計信息並不是我想的問題。測試統計量只是數據的一部分功能。因此,至少在原則上,身份功能(即此處的數據本身)似乎起作用。
Tony Boyles
2013-01-12 01:14:57 UTC
view on stackexchange narkive permalink

這部漫畫沒什麼問題,原因與統計無關。這是經濟學。如果常客是正確的,那麼地球將在48小時內變得無人居住。 \ $ 50的值實際上為空。貝葉斯意識到這一點,就可以打賭,知道他的收益在正常情況下為\ $ 50,而在陽光暴晒的情況下幾乎沒有。

這確實與“與統計有關”,因為貝葉斯統計將其明確建模為“最小化損失函數”;)
SimonN
2012-11-13 03:05:48 UTC
view on stackexchange narkive permalink

現在,歐洲核子研究組織(CERN)決定中微子的速度不比光快-在註意到中微子變化之前,電磁輻射激波鋒將撞擊地球。至少(在短期內)這將產生極好的極光效果。因此,黑暗的事實並不能防止天空被照亮。人造衛星被汽化並自燃時,月亮照得過分明亮(參見拉里·尼文(Larry Niven)的“不變的月亮”)和壯觀的閃光。

總而言之-也許是錯誤的測試? (雖然可能有事前通知-沒有足夠的時間來實際確定後驗。

然後,所有更多的理由都拒絕太陽已經爆炸的假設。 :-)
因此,當作者說“需要確認性研究”時,這就是本文結尾的含義?
實際上,在標題中隨意地回顧一下這個清晰的推論。機器**檢測**太陽是否已經變新星。檢測中沒有錯誤的機會。中微子位無關緊要。在這種情況下,統計數據將以這樣的方式返回:機器將以“否”,“否”,“否” ...的概率返回錯誤的陳述(是)的概率為1/36,直到一次性事件終止統計信息為止過程發生-這也將有1/36的機會被錯誤地報告(否),__ if__在8個奇數分鐘的間隔內查詢該機器會變得很明顯。
RobertF
2012-11-13 23:40:43 UTC
view on stackexchange narkive permalink

我同意@GeorgeLewis的觀點,認為Frequentist方法是錯誤的還為時過早-讓我們再運行中微子探測器幾次以收集更多數據。無需弄亂先驗。

aroth
2012-11-16 12:54:10 UTC
view on stackexchange narkive permalink

在所有詳細答案中可能會遺漏的一個更簡單的觀點是,描繪了常客是根據單個樣本得出結論的。在實踐中,您永遠都不會這樣做。

得出有效的結論需要具有統計意義的樣本量(換句話說,科學需要是可重複的)。因此,在實踐中,常客會多次運行計算機,然後得出有關結果數據的結論。

大概這將需要多次向機器詢問相同的問題。並且,假設機器每36次故障僅一次,就會出現清晰的圖案。從這種模式(而不是一次閱讀),常客會得出一個關於太陽是否爆炸的結論(相當準確,我會說)。

您所說的“具有統計意義的樣本量”是什麼意思?
@Momo-可以肯定的不只是一個樣本。觀察不可能的結果,然後不先重複觀察以確保它不是偶然,就得出不可能的結論的結論是無效的。如果您想要一個代表統計學意義上的樣本數量的精確數字,或者想要一個算法來確定一個精確數字,那麼統計學家可能會提供一個數字。但我不是統計學家。
我認為樣本量為1並沒有什麼特別的問題,問題在於檢驗沒有統計功效(即當檢驗結果為假時檢驗永遠不會拒絕原假設)。但是,這揭示了文章中虛假的“無效儀式”的問題,它忽略了統計功效(以及H1實際是什麼,或與該問題相關的先驗信息)的問題。
@Dikran這是最好的答案之一!漫畫中“常客”的問題在於,沒有先對測試屬性進行必要的評估就遵循了特定的統計“慣例”。(甚至可以考慮此決策的相關損失函數來擴展您的分析。)因此,該動畫片巧妙地使所有使用統計程序而不了解它們或檢查其假設的人都感到困惑。
Alexandre Patriota
2013-12-31 08:57:06 UTC
view on stackexchange narkive permalink

您問題的答案:“他是否正確地採用了常客主義方法?”是的,他沒有精確地採用常客主義的方法。這個問題的p值不完全是1/36。

我們首先必須注意所涉及的假設是

H0:太陽尚未爆炸,

H1:太陽爆炸了。

然後,

p值= P(“機器返回yes” |太陽沒有爆炸)。

要計算該概率,我們必須注意“機器返回是”等同於“中微子探測器測量到太陽爆炸並告訴真實結果,或者中微子探測器沒有測量到太陽爆炸並向我們說謊”。

假定擲骰子與中微子探測器的測量無關,我們可以通過定義以下內容來計算p值:

p0 = P(“中微子探測器測量太陽爆炸” |太陽尚未爆炸),

然後,p值是

p值= p0 x 35/36 +(1-p0)x 1/36 = (1/36)x(1+ 34 x p0)。

對於此問題,p值是介於1/36和35/36之間的數字。當且僅當p0 = 0時,p值等於1/36。也就是說,該動畫片中的一個隱含假設是,如果太陽沒有爆炸,探測器將永遠不會測量太陽的爆炸。

此外,應該插入更多的信息,以求得有關外部證據的可能性。不斷發生的爆炸。

一切順利。

Jose Garmilla
2013-11-06 04:06:16 UTC
view on stackexchange narkive permalink

我認為常客的方法沒有任何問題。如果否定假設被拒絕,則p值是類型1錯誤的概率。類型1錯誤拒絕了真實的零假設。在這種情況下,我們的p值為0.028。這意味著在曾經進行過該p值的所有假設檢驗中,每100個樣本中大約有3個將拒絕真實的零假設。通過構造,這將是其中一種情況。經常有人接受,有時他們會拒絕真實的零假設或保留錯誤的零假設(類型2錯誤),但他們從未主張過。而且,從長遠來看,它們可以精確地量化錯誤推論的頻率。由於兩個假設很簡單,所以這很容易做到。如果零是太陽變新星,則p值為35/36 = 0.972。這意味著沒有證據反對太陽變新的假設,因此我們不能根據這個結果拒絕它。這似乎更合理。如果你在想。為什麼有人會假設太陽變新星了?我問你。如果突然想到太陽爆炸,為什麼有人會進行這樣的實驗?

我認為這只是表明人們必須事先評估實驗的有用性。例如,該實驗將完全無用,因為它僅通過仰望天空即可測試我們已經知道的東西(我確定產生的p值實際上為零)。設計好的實驗是產生好的科學的要求。如果您的實驗設計不當,那麼無論您使用哪種統計推斷工具,您的結果都不太可能有用。

當然,但是貝葉斯仍然可以根據“給定的數據/實驗結果”推斷出合理的結論。有時,您無法重複實驗或按照自己的方式設計實驗。
這是一個公平的論點,貝葉斯推理可以輕鬆地合併以前的經驗,這使得非凡的結果很難具有統計權重(它可以保護我們免受統計錯誤的影響)。但是,這在貝葉斯框架中也是無用的實驗。先驗強烈支持一個結論,以至於本實驗中沒有任何結果可以改變它。如果事前是如此強大。為什麼要進行沒有修改機會的實驗?考慮弱先驗條件(可能會因數據而改變)時,我認為貝葉斯方法和頻率論方法通常會產生“可比”的結果。
Stéphane Laurent
2013-12-01 00:52:06 UTC
view on stackexchange narkive permalink

如何在頻率論方法中整合關於太陽穩定性的“先驗知識”?

一個非常有趣的話題。

這裡只是一些想法,並非完美的分析...

將貝葉斯方法與非信息先驗一起使用通常可以提供與常客相比可比的統計推斷。

為什麼貝葉斯先驗強烈相信太陽沒有爆炸?因為他每個人都知道太陽從開始就從未爆炸過。

我們可以在一些具有共軛先驗的簡單統計模型上看到,使用先驗分佈等效於使用從中得出的後驗分佈

上面的句子暗示,頻率論者應通過將初步實驗的結果納入其模型來得出貝葉斯結論。 這就是貝葉斯人的實際工作:他的先驗來自對初步實驗的了解!

讓$ N $是太陽的天數,而$ x_i $是第i天的太陽狀態(0 =爆炸/ 1 =不爆炸)。假設$ x_i $是伯努利的i.i.d變量,成功概率為\\ theta $。已經觀察到$ x_i $的實現:對於所有$ i = 1,\ ldots,N $,$ x_i = 1 $。

在當前問題中,我們有$ N + 1 $個觀察值: $ x_i $和檢測器的結果$ y = \ {\ text {Yes} \} $。自然的問題是:太陽爆炸的概率是多少,即$ \ Pr(x_ {N + 1} = 0)$是多少?這是$ \ theta $,並根據可用觀察值$ x_1,\ ldots,x_N $和$ y $估算$ \ theta $,因為$ N $很大,而“意外”值$ y = \ {\ text {Yes} \} $對$ \ theta $的估算影響可忽略不計。貝葉斯打算通過他的先前分佈來反映此信息。

從這個角度來看,我沒有看到如何從假設檢驗的角度來重新表述這個問題。取$ H_0 = \ {\ text {太陽還沒有爆炸} \} $沒有道理,因為在我的解釋中,這可能是實驗的問題,而不是正確/錯誤的假設。也許這是常客的錯誤?

“他從每個人都知道,太陽從開始就從未爆炸過”這一段落讓我想到了一個有關最近的美國假期的故事,該假期中消耗了數百萬隻火雞(* Meleagris gallopavo *)。隨著時間的流逝,每天任何聰明的火雞都會“知道每個人”,直到11月中旬這一對她至關重要的日子(對她而言,這是完全出乎意料的)!同樣,如果我們所要依靠的只是人類觀察太陽的相對較短的歷史,那麼我們對太陽穩定性的信心就應該低。
@whuber我希望私下發送此消息給您。您的評論和討論主題之間有聯繫嗎?我不知道是不是我讓我產生了想法,但是我有好幾次感覺到您對我的答案發表評論,主要是對我的答案說些什麼。 OP所進行的練習是對動畫片的解釋,我覺得您批評我的回答就好像我在談論一個真正的問題。最近,我不感激,我仍然不明白為什麼你在我的答案後面引起了一個可能的“意圖”。
沒有批評,暗示或意圖:有時評論實際上只是……評論。它試圖強調(以一種幽默的方式)提示但未回答的重要問題。很抱歉,您認為這是個人原因還是攻擊。順便說一句,這是一個真正的問題:它詢問*如何將“先驗知識” ...整合到常識方法中?統計的基礎。值得仔細考慮一下!
也可能需要指出,您聲譽的很大一部分歸功於我對您的回答的投票-我作為物質證據表明,我沒有針對您的系統行為。
@whuber您提到的真正問題是我已經解決的問題:集成先驗知識在某種程度上等同於集成其他數據。您的評論是關於* iid *假設的,這在這裡顯然是愚蠢的,或者您的評論是關於罕見事件的可能性,或類似的事情。我並不是因為這條評論而受到攻擊,而是因為幾條評論的結合。如果我的看法是錯誤的,我很抱歉,也許這些天我壓力太大了。將Google翻譯應用於您的評論時,我發現了您關於火雞的故事,我想知道這是否在嘲笑幽默。
我的評論在被Google翻譯成法文*,然後又重新譯成英文*時,的確變得很奇怪-我知道這可能會引起誤解!我將重複一遍,這並不是要嘲笑-我從不故意從事任何此類事情-並且在重讀之後,我認為嘲笑的語氣不會偶然消失。我們的交流受到翻譯的影響,翻譯可能不錯,但不夠好。我們的網站永遠不應成為額外的壓力來源:讓我們放鬆一下,玩得開心,互相學習。乾杯!
不,我了解您的評論。您評論的法文Google翻譯已經很奇怪了,但是結合我的英語技能和奇怪的Google翻譯,我就能獲得正確的翻譯。下個月我可能會更加放鬆。
Björn
2019-02-03 23:09:58 UTC
view on stackexchange narkive permalink

這當然是一個頻繁的0.05級檢驗-在原假設下,原假設被拒絕的時間不到5%,甚至在替代方法下的功效也很大。

另一方面,先驗信息告訴我們,在某個特定時間太陽極不可能出現超新星,但是偶然撒謊的可能性更大。

最重要的是:漫畫並沒有什麼大不了,這表明檢驗不合理的假設會導致較高的錯誤發現率。此外,您可能希望在評估提供的投注時考慮先驗信息-這就是為什麼貝葉斯後驗與決策分析相結合如此受歡迎的原因。

Chaitanya Anand
2014-12-06 15:35:52 UTC
view on stackexchange narkive permalink

在我看來,更正確的頻率分析如下:H0:太陽已經爆炸,機器正在說真話。H1:太陽沒有爆炸並且機器在說謊。

此處的p值為= P(太陽爆炸)。 p(機器說的是實話)= 0.97。 P(太陽爆炸)

統計學家在不知道第二概率的性質的情況下無法得出任何結論。

儘管我們知道P(太陽爆炸)為0,因為太陽像星星一樣不要爆炸成超新星。



該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...