Joris和Srikant的交流此處讓我想知道(再次)我對置信區間和可信區間之間差異的內部解釋是否正確。您將如何解釋差異?
Joris和Srikant的交流此處讓我想知道(再次)我對置信區間和可信區間之間差異的內部解釋是否正確。您將如何解釋差異?
我完全同意Srikant的解釋。為了對此進行更啟發式的研究:
經典方法通常假定世界是一種方式(例如,參數具有一個特定的真實值),並嘗試進行實驗,無論其得出的結論如何-參數的真實值-至少以最小的概率是正確的。
結果是,為了在實驗後表達我們的知識不確定性,常識性方法使用“置信區間”-旨在以最小概率(例如95%)包含參數真實值的一系列值。專家將設計實驗和95%的置信區間程序,以便在每100個實驗開始運行到結束之間,至少有95個結果置信區間將包含參數的真實值。其他5個可能略有錯誤,或者可能完全是胡說八道-正式地說,就該方法而言,只要100個推斷中的95個是正確的,就可以。 (當然,我們希望它們稍有錯誤,而不是完全胡說八道。)
貝葉斯方法以不同的方式提出問題。貝葉斯方法不是說參數僅具有一個(未知的)真實值,而是說參數的值是固定的,但它是從某種概率分佈中選擇的,即先驗概率分佈。 (另一種說法是,在進行任何測量之前,貝葉斯方法會針對參數的真實值恰好是多少分配一個概率分佈,他們稱之為置信狀態。)估計卡車的尺寸,如果我們從DMV知道卡車尺寸的總體分佈),或者是憑空得出的假設。貝葉斯推斷更簡單-我們收集一些數據,然後計算將數據賦予參數的不同值的概率。這種新的概率分佈稱為“後驗概率”或簡稱為“後驗概率”。貝葉斯方法可以通過在後驗概率分佈中給出包括95%概率的後驗概率分佈值範圍來總結其不確定性,這稱為“ 95%可信區間”。
貝葉斯游擊隊可能會批評常見的置信區間是這樣的:“那麼,如果100個實驗中有95個產生的置信區間包含真實值,該怎麼辦?我不在乎我不做的99個實驗;我在乎我要做的這個實驗。您的規則只要其他95個都是正確的,就允許100個中的5個完全是廢話[負值,不可能的值];這太荒謬了。“
一個頑固的頑固主義者可能會這樣批評貝葉斯信譽區間:“那麼,如果將95%的後驗概率包括在該範圍內該怎麼辦?如果真實值是0.37,該怎麼辦?如果是,那麼您的方法,從開始到結束,將有75%的時間是錯誤的。您的回答是:“哦,那還可以,因為根據以前的經驗,該值非常罕見,為0.37,”也許是這樣,但是我想要一種適用於任何可能的參數值的方法,我不在乎它沒有的99個參數值;我在乎它確實有的一個真實值。僅在先驗正確的情況下才是正確的。如果您只是因為感覺正確而憑空抽出它,您就可以走開。”
從某種意義上說,這兩個游擊黨派對他們的批評都是正確的彼此的方法,但我敦促您從數學角度考慮區別-正如Srikant解釋。
下面是該演講的擴展示例,該示例顯示了
在我小的時候,我的母親偶爾會訂購一罐巧克力曲奇,以郵寄方式給我驚喜。送貨公司庫存了四種不同的餅乾罐-A型,B型,C型和D型,它們都在同一輛卡車上,因此您永遠不確定會得到哪種類型。每個罐子恰好有100個曲奇,但是區分不同曲奇罐的功能是每個曲奇各自的巧克力碎片分佈。如果您伸入廣口瓶中並隨機均勻地取出一個cookie,這些就是您獲得的籌碼數量的概率分佈:
例如,一個A型曲奇罐中有70個曲奇,每個曲奇有2個籌碼,而沒有4個或更多籌碼的cookie! D型曲奇罐有70個曲奇,每個曲奇一個。請注意,每個垂直列是一個概率質量函數-假設jar = A或B或C或D,並且每個列的總和為100,則得到的籌碼數量的條件概率。 p>
送貨員放下我的新餅乾罐後,我曾經很喜歡玩遊戲。我會從罐子中隨機取出一個餅乾,計算餅乾上的籌碼,然後嘗試表達我的不確定性(以70%的水平)。因此,罐子的標識(A,B,C或D)是要估算的參數的值。籌碼數量(0、1、2、3或4)是結果或觀察值或樣本。
最初,我是使用常客玩這個遊戲的,佔70%置信區間。這樣的間隔需要確保不管參數的真實值,這意味著無論我得到哪個餅乾罐,該間隔都將以至少70%的概率覆蓋該真實值。
當然,間隔是將結果(一行)與參數值集(一組列)相關聯的函數。但是要構造置信區間並確保覆蓋率達到70%,我們需要“垂直”工作-依次查看每一列,並確保覆蓋70%的概率質量函數,以便70%的時間,該列的標識將成為所產生間隔的一部分。請記住,是形成p.m.f.的垂直列。
因此,完成該過程後,我得到了以下間隔:
例如,如果我抽取的cookie上的籌碼數量為1,則我的置信區間為{B,C,D}。如果數字為4,則我的置信區間為{B,C}。請注意,由於每一列的總和等於或大於70%,所以無論我們真正位於哪一列(無論送貨員投下哪個罐子),此過程產生的間隔都將包括正確的罐子,概率至少為70%。
還請注意,我在構造時間間隔時遵循的過程具有一定的酌處權。在B型列中,我可以很容易地確定包括B的間隔將是0、1、2、3,而不是1、2、3、4。這樣可以使B型廣口瓶(12 + 19 + 24 + 20)的覆蓋率達到75%,但仍達到70%的下限。她說:“您必須將送貨員視為系統的一部分。” “讓我們把罐子的身份本身當作一個隨機變量,讓我們假設,送貨員從他們那裡統一選擇-這意味著他把四個人都裝在卡車上,當他到我們家時,隨機選擇一個,每個概率均等。”
”基於這個假設,現在讓我們來看整個事件的聯合概率-jar類型和您從第一個Cookie提取的籌碼”,她說,繪製了下表:
請注意,整個表格現在是概率質量函數-意味著整個表格的總和為100%。
“好吧,”我說,“您要去哪兒?”
”您一直在關注條件數量的條件概率炸薯條,如果有罐子的話。” “那完全不對!您真正關心的是,根據Cookie上的籌碼數量,它是哪個罐子的條件概率!您70%的時間間隔應該只包括列表罐子,總共有70%的可能性真正的罐子。難道不是更簡單,更直觀嗎?”
“當然,但是我們如何計算呢?”我問到了。我們將需要按比例擴大概率,因此每行總計為100。”她做到了:
“”請注意,現在每一行都是pmf,總和為100%。現在,考慮到第一個cookie上的籌碼數量,這是該男子掉下某個罐子的可能性。”
“有趣,”我說。 “所以現在我們只需要在每行中圈出足夠多的罐子,以達到70%的概率?”我們就是這樣做的,並設置了以下可信度間隔:
每個間隔都包含一組罐子,後驗,總計為70%
“好,等等,”我說。 “我不相信。讓我們將兩種間隔並排比較,並比較它們的覆蓋範圍,並假設送貨員以同等的可能性,信譽來挑選每種罐子。”
這裡它們是:
置信區間:
可信區間:
“看看您的置信區間有多瘋狂?”貝葉斯說。 “當您用零籌碼繪製一個cookie時,您甚至沒有一個明智的答案!您只是說這是空的間隔。但這顯然是錯誤的-它必須是四種罐子之一。您如何生活您自己,在一天結束時說一個間隔,當您知道間隔是錯誤的嗎?,當您拉動3個籌碼的cookie時,同上-您的間隔只有41%的時間是正確的。這個“ 70%”的置信區間就是胡扯。”
“好吧,嘿,”我回答。 “ 70%的時間都是正確的,無論送貨員放下哪個廣口瓶。這要遠遠超過您所說的可信度間隔。如果廣口瓶是B型呢?那麼80%的時間間隔是錯誤的,而且只能在20%的時間內更正!”
“這似乎是個大問題,”我繼續說道,“因為您的錯誤將與罐子的類型相關。如果發出100'貝葉斯'機器人評估您擁有哪種類型的罐子,每個機器人都採樣一個cookie,您告訴我,在B型天,您會期望80個機器人得到錯誤的答案,每個機器人對其信念的相信程度均超過73%錯誤的結論!這很麻煩,特別是如果您希望大多數機器人就正確的答案達成共識。“
”此外,我們還必須做出這樣的假設,即送貨員的行為是統一的,並隨機選擇每種罐子,“ 我說。 “那是從哪裡來的?如果錯了怎麼辦?您沒有與他交談;您沒有採訪過他。但是,您關於後代的所有陳述都是基於關於他的行為的陳述。我不必做任何這樣的假設,即使在最壞的情況下,我的時間間隔也符合其標準。“
”的確,我的可信度間隔確實在B型廣口瓶上表現不佳。“ 。 “但是那又怎樣呢?B型罐子只發生25%的時間。它對我對A,C和D型罐子的良好覆蓋使它平衡了。而且我從不發表廢話。”
”這是真的當我用零籌碼繪製cookie時,我的置信區間確實表現不佳。” “但是那又如何呢?在最壞的情況下(D型罐),無芯片Cookie最多會發生27%的時間。對於這種結果,我可以胡說八道,因為沒有罐會導致超過30個錯誤的答案時間百分比。“
”列表示總和,“我說。
”行表示總和,“ Bayesia說。
“我可以看到我們陷入僵局,”我說。 “我們倆在做的數學陳述中都是正確的,但是我們對量化不確定性的適當方法持不同意見。”
“是的,”我的妹妹說。 “想要餅乾嗎?”
我的理解如下:
背景
假設您有一些數據$ x $,並且您正在嘗試估算$ \ theta $ 。您有一個數據生成過程,該過程描述瞭如何以$ \ theta $為條件來生成$ x $。換句話說,您知道$ x $的分佈(例如$ f(x | \ theta)$。
推斷問題
您的推斷問題是:給定觀察到的數據$ x $,$ \ theta $的值是合理的嗎?
置信區間
置信區間是對上面的問題,在這種方法中,您假設固定的固定值 $ \ theta $。在此假設下,您將使用數據$ x $得出$ \ theta $的估算值(例如,$ \ hat {\ theta} $)。獲得估算值後,您想評估真實值相對於估算值的位置。
請注意,在這種方法下,真實值是不是一個隨機變量,它是一個固定但未知的數量,相反,您的估計是一個隨機變量,因為它取決於從數據中生成的數據$ x $生成過程。因此,您意識到每次重複學習都會得到不同的估算值。
以上理解導致按照以下方法來評估與您的估算有關的真實參數。用以下屬性定義一個區間$ I \ equiv [lb(x),ub(x)] $:
$ P(\ theta \ in I)= 0.95 $
如上構造的區間稱為置信區間。由於真實值是未知的但是固定的,因此真實值在區間內或區間外。置信區間則是關於我們獲得的區間實際上具有真實參數值的可能性的陳述。因此,概率陳述與間隔(即該間隔是否具有真實值的機會)有關,而不是與真實參數值的位置有關。
在此範式中,談論真實值小於或大於某個值的可能性毫無意義,因為真實值不是隨機變量。
可信區間
與經典方法相比,在貝葉斯方法中,我們假設真實值是隨機變量。因此,通過在真參數向量上施加先驗分佈(例如$ f(\ theta)$)來捕獲關於真參數值的不確定性。
使用貝葉斯定理,我們構造後驗分佈通過混合先驗和我們擁有的數據來獲得參數向量(簡稱後驗是$ f(\ theta |-)\ propto f(\ theta)f(x | \ theta)$)。
然後,我們使用後驗分佈(例如,使用後驗分佈的均值)得出一個點估計。但是,由於在這種範式下,真實參數向量是隨機變量,因此我們也想知道點估計中不確定性的程度。因此,我們構造一個間隔,使其滿足以下條件:
$ P(l(\ theta)\ le {\ theta} \ le ub(\ theta))= 0.95 $
以上是一個可靠的間隔。
摘要
可信區間捕獲了我們當前在參數值位置上的不確定性,因此可以解釋為關於參數的概率陳述。
相反,置信區間捕獲了我們獲得的區間的不確定性(即,是否包含真實值)。因此,它們不能被解釋為有關真實參數值的概率陳述。
我在一個基本點上不同意Srikant的回答。 Srikant說:
“推理問題:您的推理問題是:給定觀測數據x,θ的哪個值是合理的?”
實際上,這是貝葉斯推理問題。在貝葉斯統計中,我們試圖計算P(θ| x),即給定觀測數據(樣本)的參數值的概率。 CREDIBLE INTERVAL是θ的一個間隔,考慮到問題背後的幾個假設,θ的間隔有95%的機會(或其他可能性)包含θ的真實值。 >
給定θ的假設值,觀測數據x是否合理?
在頻率統計中,我們試圖計算P(x |θ),即在給定假設參數值的情況下觀察數據(樣本)的概率。置信區間(可能用詞不當)解釋為:如果多次重複生成隨機樣本x的實驗,則由這些隨機樣本構成的此類區間的95%(或其他)將包含參數的真實值。
腦袋沒?這就是常客統計學的問題,而貝葉斯統計學的主要目的就是要解決這個問題。 >
P(θ| x)= P(θ)P(x |θ)
其中P(θ)是我們的先驗概率; P(x |θ)是以該先驗為條件的數據的概率,P(θ| x)是後驗的概率。先驗的P(θ)本質上是主觀的,但這是關於宇宙的知識的價格-具有非常深刻的意義。
之前提供的答案非常有用且詳盡。這是我的0.25美元。
置信區間(CI)是一個基於概率的經典定義(也稱為“頻率定義”)的概念,該概率類似於比例,並且基於Kolmogrov的公理式系統(和別的)。
基於Wald和de Finetti的工作(並在其他人的基礎上進行了很多擴展),可以認為可信區間(最高後密度,HPD)起源於決策理論。
由於從事這一工作的人們在給出例子以及貝葉斯和常識性案例中的假設差異方面做得很出色,所以我只強調一些重要的觀點。
CI的依據是,必鬚根據可能發生的實驗重複進行推斷,而不僅僅是基於觀察到的數據,因為HPD完全基於觀察到的數據(並且遵守了我們的先前假設)。
通常,CI與HPD是一致的(由於其在決策理論中的根源)是不一致的(將在後面進行解釋)。連貫性(正如我要向我的祖母解釋的那樣)意味著:給定參數值的下注問題,如果古典統計學家(常客)對CI押注,貝葉斯對HPD押注,則常客將輸掉(不包括小問題)當HPD = CI時)。簡而言之,如果您想將實驗結果總結為基於數據的概率,則該概率就是後驗概率(基於先驗概率)。有一個定理(參見Heath和Sudderth,《統計年鑑》,1978年)(大致)指出:根據數據將概率分配給 $ \ theta $ span>不會使一個肯定的失敗者,當且僅當它是通過貝葉斯方式獲得的。
由於CI並不以觀察到的數據為條件(也稱為“條件性原理” CP),因此可能存在矛盾的例子。費舍爾(Fisher)是CP的大力支持者,並且在未遵循CP的情況下(例如CI)也發現了許多矛盾的例子。這就是為什麼他使用p值進行推理而不是CI的原因。在他看來,p值是基於觀察到的數據(關於p值可以說很多,但這並不是本文的重點)。兩個非常著名的悖論示例是:(4和5)
Cox的示例(《數學統計年鑑》,1958年): $ X_i \ sim \ mathcal {N}(\ mu,\ sigma ^ 2)$ span>(iid)for $ i \在\ {1,\ dots,n \} $ span>中,我們要估算 $ \ mu $ span>。 $ n $ span>不是固定的,而是通過拋硬幣來選擇的。如果拋硬幣導致H,則選擇2,否則選擇1000。 “常識”估計-樣本均值是無偏估計,方差為 $ 0.5 \ sigma ^ 2 + 0.0005 \ sigma ^ 2 $ span>。當 $ n = 1000 $ span>時,我們用什麼作為樣本均值?將樣本均值估計量的方差用作 $ 0.001 \ sigma ^ 2 $ span>(條件方差)而不是估計量的實際方差不是更好(或更明智) ,這是巨大的! ( $ 0.5 \ sigma ^ 2 + 0.0005 \ sigma ^ 2 $ span>)。這是CP的簡單說明,當我們使用方差作為 $ 0.001 \ sigma ^ 2 $ span>時,當 $ n = 1000 $ 。 $ n $ span>單獨對於 $ \ mu $ span>和 $ \ sigma $ span>(即 $ n $ span>是它們的輔助),但是鑑於其價值,您對“質量”了解很多數據的”。這直接與CI有關,因為它們涉及方差,不應以 $ n $ span>為條件,即我們最終將使用較大的方差,因此過於保守。
Welch的示例:該示例適用於任何 $ n $ span>,但我們將採用 $ n = 2 $ span>為簡單起見。 $ X_1,X_2 \ sim \ mathcal {U}(\ theta-1/2,\ theta +1/2)$ span>(iid), $ \ theta $ span>屬於Real行。這意味著 $ X_1-\ theta \ sim \ mathcal {U}(-1/2,1/2)$ span>(iid)。 $ \ frac {1} {2}(X_1 + X_2){\ bar x}-\ theta $ span>(請注意,這不是統計數據)具有獨立於分佈的分佈的 $ \ theta $ span>。我們可以選擇 $ c > 0 $ span>s.t。 $ \ text {Prob} _ \ theta(-c < = {\ bar x}-\ theta < = c)= 1- \ alpha(\ approx 99 \%)$ ,表示 $({\ bar x}-c,{\ bar x} + c)$ span>是 $ \ theta $ span>。此CI的解釋是:如果我們重複採樣,我們將得到不同的 $ {\ bar x} $ span>,並且它的99%(至少)倍將包含真實 $ \ theta $ span>,但是,GIVEN數據中的大象(房間裡的大象),我們不知道CI包含真實 $ \ theta $ span>。現在,考慮以下數據: $ X_1 = 0 $ span>和 $ X_2 = 1 $ span>,作為 $ | X_1-X_2 | = 1 $ span>,我們肯定知道區間 $(X_1,X_2)$ span>包含 $ \ theta $ span>(一種可能的批評, $ \ text {Prob}(| X_1-X_2 | = 1)= 0 $ span>,但我們可以用數學方法處理它,我不再討論。)這個例子也很好地說明了一致性的概念。如果您是一位經典的統計學家,那麼您一定會在不考慮 $ | X_1-X_2 | $ span>的價值的情況下下注99%CI(假設您對職業)。但是,僅當 $ | X_1-X_2 | $ span>的值接近1時,貝葉斯才會下注。 -container“> $ | X_1-X_2 | $ span>,間隔是連貫的,玩家將不再是確定的輸家(類似於Heath和Sudderth的定理)。
Fisher對此類問題提出了建議-使用CP。對於Welch的示例,Fisher建議將條件設置為 $ X_2-X_1 $ span>。如我們所見, $ X_2-X_1 $ span>是 $ \ theta $ span>的輔助,但它提供了有關θ。如果 $ X_2-X_1 $ span>是SMALL,則有關 $ \ theta $ span>的信息不多數據。如果 $ X_2-X_1 $ span>為大,則在 $ \ theta $ span>中有很多信息數據。 Fisher將對輔助統計量進行條件調整的策略擴展到稱為 Fiducial Inference 的一般理論(也稱為他的最大失敗,參見Zabell,Stat。Sci。1992),但由於以下原因而沒有流行缺乏普遍性和靈活性。費舍爾試圖找到一種不同於古典統計(內曼學派)和貝葉斯學派的方法(因此,薩維奇著名的格言:“費舍爾想製作貝葉斯煎蛋(即使用CP)而不破壞貝葉斯蛋”) 。民間傳說(沒有證據)說:費舍爾(Fisher)在辯論中抨擊內曼(I型和II型錯誤和CI),稱他為“質量控制人員”而不是“科學家”,因為Neyman的方法不以觀察到的數據為條件,而是查看所有可能的重複。
除CP之外,統計學家還希望使用自滿原則(SP)。但是SP和CP一起暗示了似然原理(LP)(參見Birnbaum,JASA,1962年),即給定CP和SP時,必須忽略樣本空間,而僅考慮似然函數。因此,我們只需要在整個樣本空間中查看給定的數據和 NOT (查看整個樣本空間的方式類似於重複採樣)。這就導致了諸如“觀察到的費舍爾信息”(參見Efron和Hinkley,AS,1978年)之類的概念,該概念從頻繁主義者的角度衡量有關數據的信息。數據中的信息量是一個貝葉斯概念(因此與HPD有關),而不是CI。
Kiefer在1970年代後期對CI做了一些基礎性工作,但是他的擴展名尚未流行。很好的參考資料來源是Berger(Stat Sci,2003年,“費舍爾,內曼和杰弗里斯可能同意檢驗假設”)。
(如Srikant等人所指出)
CI不能解釋為概率,並且它們不能告訴已知參數GIVEN所觀察到的數據。 CI是關於重複實驗的陳述。
HPD是基於未知參數的後驗分佈的概率區間,並且基於給定數據具有基於概率的解釋。
頻率屬性(重複採樣)屬性是理想的屬性,HPD(具有適當的優先級)和CI都具有它們。 HPD還以給定數據為條件,以回答有關未知參數的問題
(客觀非主觀)貝葉斯主義者同意經典統計學家的觀點,即該參數只有一個TRUE值。但是,它們在推斷此真實參數的方式上都不同。
貝葉斯HPD為我們提供了一種很好的數據條件處理方法,但是如果他們不同意CI的常客屬性,那麼它們就不是很有用了(類比:使用HPD(具有某些先驗經驗)且沒有良好的常客屬性的人) ,注定要像只關心錘子卻忘記螺絲起子的木匠一樣注定要失敗。
最後,我在這個線程中看到了一些人(Joris博士的評論:“。涉及的假設暗示了一個擴散先驗,即完全缺乏對真實參數的知識。”)談論缺乏對真實參數的知識等同於使用擴散先驗。我不知道我是否可以同意這一說法(基思博士同意我的觀點)。例如,在基本線性模型的情況下,可以通過使用統一先驗(某些人稱為擴散)來獲得某些分佈,但這並不意味著可以將統一分佈視為低信息先驗。通常,NON-INFORMATIVE(Objective)先驗並不意味著它關於參數的信息很少。
注意:這些要點很多都是基於在一位著名的貝葉斯學者的演講中。我仍然是學生,可能以某種方式誤解了他。請提前接受我的道歉。
參加一些哲學總是很有趣。我非常喜歡基思的回應,但是我想說他正在擔任“健忘的貝葉斯先生”的職務。只有在每次試驗都應用相同的概率分佈並且拒絕事先更新他的(她)的情況下,B型和C型的不良覆蓋才會出現。
您可以很清楚地看到這一點。 ,對於A型和D型罐子,可以說是“確定的預測”(分別針對0-1和2-3個籌碼),而B型和C型罐子基本上給出了均勻的籌碼分佈。因此,在重複使用固定的“真罐子”(或者如果我們取樣另一個餅乾)進行實驗時,均勻分佈的薯條將為B型或C型罐子提供證據。
”的觀點認為,類型B和C需要大量樣本才能區分它們。兩種分佈之間的KL散度為$ KL(B || C)\大約0.006 \大約KL(C || B)$。這是一個等效於兩個正態分佈的方差,均具有方差$ 1 $和均值$ \ sqrt {2 \ times 0.006} = 0.11 $。因此,我們不可能期望能夠基於一個樣本進行區分(對於正常情況,我們需要大約320個樣本大小才能在5%的顯著性水平上檢測到這種差異)。這樣我們就可以合理地將B型和C型折疊在一起,直到有足夠大的樣本為止。
現在,這些可信區間會發生什麼?實際上,我們現在已經100%覆蓋了“ B或C”!頻繁間隔時間如何?由於所有間隔都包含B和C或都不包含,因此覆蓋率沒有變化,因此它仍然受到Keith的回應的批評-觀察到3和0籌碼分別為59%和0%。
但是,這裡要務實。如果您針對某個功能進行了優化,則不能期望它對另一功能有效。但是,頻繁者間隔和貝葉斯間隔確實確實達到了期望的可信度/可信度水平。我們有$(0 + 99 + 99 + 59 + 99)/5=71.2$-因此,常客具有適當的平均信譽。我們還有$(98 + 60 + 66 + 97)/4=80.3$-貝葉斯具有適當的平均覆蓋率。
我要強調的另一點是,貝葉斯並不是說“參數是隨機的”。對於貝葉斯(好吧,至少對我而言),概率分佈是對該參數已知信息的描述。在貝葉斯理論中,“隨機性”的概念並沒有真正存在,只有“知道”和“不知道”的概念。 “已知”進入條件,而“未知”則是我們計算概率(如果感興趣的話)的概率,而在擾民時將其邊緣化。因此,一個可靠的間隔描述了有關固定參數的已知信息,並取其平均值。因此,如果我們代替裝滿餅乾罐並知道它是A型的人擔任職務,則無論樣本數量如何,無論取樣多少,他們的信譽間隔都將是[A]。而且它們將100%準確!
置信區間是基於不同可能樣本中存在的“隨機性”或變化。因此,它們考慮的唯一變化是樣本中的變化。因此,對於裝滿了餅乾罐的人來說,置信區間是不變的,而新的餅乾罐是A型。因此,如果從A型罐子中抽出1片餅乾,那麼常客會以70%的信心斷言該類型是即使他們知道罐子是A型,也不是A! (如果他們保持自己的意識形態而忽略了常識)。要看到是這種情況,請注意在這種情況下沒有什麼改變採樣分佈-我們只是簡單地從另一個人的角度了解有關參數的基於“非數據”的信息。
置信度僅當數據更改或模型/採樣分佈更改時,間隔才會更改。如果考慮到其他相關信息,可信度間隔可能會發生變化。
請注意,這種瘋狂的行為肯定不是可信度間隔擁護者實際上會採取的行動;但確實顯示了在特定情況下該方法所依據的理念上的弱點。當您僅對數據集中包含的信息不了解太多參數時,置信區間將發揮最大作用。而且,除非有先驗信息無法置信區間,或者難以找到足夠的輔助統計數據,否則可信度區間在置信區間上將不會有太大改善。
據我所知:可信區間是對感興趣統計量的值範圍的說明,考慮到我們實際觀察到的特定數據樣本,這些值仍然是合理的。置信區間表示當多次重複實驗時,真實值位於置信區間中的頻率。每次重複實驗都使用來自相同基礎人口的不同數據樣本。
通常,我們要回答的問題是“統計量的哪些值與所觀察到的數據一致”,可信區間給出了該問題的直接答案-統計量的真實值位於概率為95%的可信區間內95%。置信區間不能直接回答這個問題。斷言該統計信息的真實值位於95%置信區間內的概率為95%(除非它恰好與可信區間一致)是不正確的。但是,這是對常識性置信區間的一種非常常見的誤解,因為它會直接回答問題。
我在另一個問題中討論過的Jayne's的論文給出了一個很好的例子(示例#5)構造了一個完全正確的置信區間,其中基於其的特定數據樣本排除了統計的真實值在95%的置信區間內的任何可能性!這僅是一個問題,如果根據我們觀察到的特定樣本將置信區間錯誤地解釋為統計的合理值的陳述。
最後,這是一個問題的“課程”,哪個間隔最好取決於您要回答的問題-只需選擇直接回答該問題的方法即可。
我懷疑置信區間在分析[指定的]可重複實驗(因為這只是置信區間的假設)時更有用,而可信區間在分析觀測數據時更好,但這只是一種觀點(我同時使用了兩種間隔的時間,但都不會描述自己是專家。
我發現許多關於置信區間和可信集的解釋都是錯誤的。例如,置信區間不能以這種格式$ P(\ theta \ in CI)$表示。如果您仔細觀察“常客”和貝葉斯推論中的“分佈”,您會看到“常客”對數據的抽樣分佈進行研究,而貝葉斯對參數的(後)分佈進行研究。它們是在完全不同的“樣本空間”和Sigma代數上定義的。
所以是的,您可以說“如果重複多次實驗,則95%CI中的大約95%將覆蓋真實參數”。儘管在貝葉斯方法中您可以說“統計的真實價值在於95%可信區間內,概率為95%”,但是,這95%的概率(在貝葉斯方法中)本身僅是估計值。 (請記住,它基於給定此特定數據的條件分佈,而不是採樣分佈)。由於隨機樣本,此估算器應帶有隨機誤差。
貝葉斯嘗試避免出現I型錯誤問題。貝葉斯總是說在貝葉斯中談論I型錯誤是沒有意義的。這並非完全正確。統計人員總是想衡量“您的數據可以建議您做出決定,而總體上可以建議您做出決定”的可能性或錯誤。這是貝葉斯無法回答的(此處省略了詳細信息)。不幸的是,這可能是統計學家應該回答的最重要的事情。統計人員不僅僅提出決定。統計人員還應該能夠解決該決定有可能出錯的地方。
我必鬚髮明下表和術語來解釋這一概念。希望這有助於解釋置信區間和可信集的區別。
請注意,後驗分佈是$ P(\ theta_0 | Data_n)$,其中$ \ theta_0 $是從先前的$ P(\ theta_0)$定義的。在常客中,採樣分佈為$ P(Data_n; \ theta)$。 $ \ hat {\ theta} $的採樣分佈為$ P(\ hat {\ theta} _n; \ theta)$。下標$ n $是樣本大小。請不要使用符號$ P(Data_n | \ theta)$來表示頻繁抽樣。您可以談論$ P(Data_n; \ theta)$和$ P(\ hat {\ theta} _n; \ theta)$中的隨機數據,但不能談論$ P(\ theta_0 | Data_n)$中的隨機數據。
'???????'解釋了為什麼我們無法評估貝葉斯類型I錯誤(或類似的錯誤)。
請注意,在某些情況下,可以使用可信集來近似置信區間。但是,這僅僅是數學上的近似。解釋應該與常客相提並論。在這種情況下,貝葉斯解釋不再起作用。
胸苷在$ P(x | \ theta)$中的表示法不再常用。這仍然是貝葉斯。當談到頻率論者時,這種表示法引起了量度理論的根本問題。
我同意 Dikran Marsupial的結論。如果您是FDA審評人,您總是想知道您批准藥物申請但該藥物實際上無效的可能性。這是貝葉斯無法提供的答案,至少在經典/典型貝葉斯中是無法做到的。
通用且一致的信心和可靠的地區。 http://dx.doi.org/10.6084/m9.figshare.1528163,代碼為 http://dx.doi.org/10.6084/m9.figshare.1528187
提供了用於集合選擇的可信區間和置信區間的描述,以及通用R代碼,用於計算給定的似然函數和一些觀察到的數據。進一步提出了一種檢驗統計量,該檢驗統計量給出了相互一致的最佳大小的可信區間和可信區間。
簡而言之,避免使用公式。貝葉斯可信區間基於給定數據的參數的概率。它將具有高概率的參數收集到可信組/間隔中。 95%可信區間包含給定數據的參數在一起的概率為0.95。
常客的置信區間基於給定某些參數的數據的概率。對於每個(可能無限多個)參數,它首先生成給定參數可能會觀察到的數據集。然後針對每個參數檢查所選的高概率數據是否包含觀察到的數據。如果高概率數據包含觀察到的數據,則將相應的參數添加到置信區間。因此,置信區間是參數的集合,因此我們不能排除參數已生成數據的可能性。這給出了這樣一個規則,即如果反复應用於類似問題,則95%的置信區間將在95%的情況下包含真實參數值。
這更多是評論,但時間太長。在以下論文中:隨機性時代的曙光 (大衛·芒福德)芒福德有以下有趣的評論:
雖然所有這些真正令人興奮的用途都來自統計數據, 由R.A.爵士領導的大多數統計學家自己。費舍爾 將他們的雙手綁在背後,堅持統計 只能在完全可複制的情況下使用,然後 僅使用經驗數據。這就是所謂的“常客” 與貝葉斯學校戰鬥的學校,貝葉斯學校認為 可以使用先驗和極大地使用統計推斷 擴展。這種方法否認統計推斷可以 與真實想法有關,因為現實生活中 總是埋在上下文變量中,並且不能重複。 幸運的是,貝葉斯學派並沒有完全死去,而是繼續 由DeFinetti,E.T.傑恩斯,還有其他人。