置信區間和可信區間有什麼區別？

題:

置信區間和可信區間有什麼區別？

Matt Parker

2010-09-01 18:53:07 UTC

view on stackexchange narkive permalink

Joris和Srikant的交流此處讓我想知道（再次）我對置信區間和可信區間之間差異的內部解釋是否正確。您將如何解釋差異？

九答案:

Keith Winstein

2010-09-01 23:46:23 UTC

view on stackexchange narkive permalink

我完全同意Srikant的解釋。為了對此進行更啟發式的研究：

經典方法通常假定世界是一種方式（例如，參數具有一個特定的真實值），並嘗試進行實驗，無論其得出的結論如何-參數的真實值-至少以最小的概率是正確的。

結果是，為了在實驗後表達我們的知識不確定性，常識性方法使用“置信區間”-旨在以最小概率（例如95％）包含參數真實值的一系列值。專家將設計實驗和95％的置信區間程序，以便在每100個實驗開始運行到結束之間，至少有95個結果置信區間將包含參數的真實值。其他5個可能略有錯誤，或者可能完全是胡說八道-正式地說，就該方法而言，只要100個推斷中的95個是正確的，就可以。（當然，我們希望它們稍有錯誤，而不是完全胡說八道。）

貝葉斯方法以不同的方式提出問題。貝葉斯方法不是說參數僅具有一個（未知的）真實值，而是說參數的值是固定的，但它是從某種概率分佈中選擇的，即先驗概率分佈。（另一種說法是，在進行任何測量之前，貝葉斯方法會針對參數的真實值恰好是多少分配一個概率分佈，他們稱之為置信狀態。）估計卡車的尺寸，如果我們從DMV知道卡車尺寸的總體分佈），或者是憑空得出的假設。貝葉斯推斷更簡單-我們收集一些數據，然後計算將數據賦予參數的不同值的概率。這種新的概率分佈稱為“後驗概率”或簡稱為“後驗概率”。貝葉斯方法可以通過在後驗概率分佈中給出包括95％概率的後驗概率分佈值範圍來總結其不確定性，這稱為“ 95％可信區間”。

貝葉斯游擊隊可能會批評常見的置信區間是這樣的：“那麼，如果100個實驗中有95個產生的置信區間包含真實值，該怎麼辦？我不在乎我不做的99個實驗；我在乎我要做的這個實驗。您的規則只要其他95個都是正確的，就允許100個中的5個完全是廢話[負值，不可能的值]；這太荒謬了。“

一個頑固的頑固主義者可能會這樣批評貝葉斯信譽區間：“那麼，如果將95％的後驗概率包括在該範圍內該怎麼辦？如果真實值是0.37，該怎麼辦？如果是，那麼您的方法，從開始到結束，將有75％的時間是錯誤的。您的回答是：“哦，那還可以，因為根據以前的經驗，該值非常罕見，為0.37，”也許是這樣，但是我想要一種適用於任何可能的參數值的方法，我不在乎它沒有的99個參數值；我在乎它確實有的一個真實值。僅在先驗正確的情況下才是正確的。如果您只是因為感覺正確而憑空抽出它，您就可以走開。”

從某種意義上說，這兩個游擊黨派對他們的批評都是正確的彼此的方法，但我敦促您從數學角度考慮區別-正如Srikant解釋。

下面是該演講的擴展示例，該示例顯示了

在我小的時候，我的母親偶爾會訂購一罐巧克力曲奇，以郵寄方式給我驚喜。送貨公司庫存了四種不同的餅乾罐-A型，B型，C型和D型，它們都在同一輛卡車上，因此您永遠不確定會得到哪種類型。每個罐子恰好有100個曲奇，但是區分不同曲奇罐的功能是每個曲奇各自的巧克力碎片分佈。如果您伸入廣口瓶中並隨機均勻地取出一個cookie，這些就是您獲得的籌碼數量的概率分佈：

alt text

例如，一個A型曲奇罐中有70個曲奇，每個曲奇有2個籌碼，而沒有4個或更多籌碼的cookie！ D型曲奇罐有70個曲奇，每個曲奇一個。請注意，每個垂直列是一個概率質量函數-假設jar = A或B或C或D，並且每個列的總和為100，則得到的籌碼數量的條件概率。 p>

送貨員放下我的新餅乾罐後，我曾經很喜歡玩遊戲。我會從罐子中隨機取出一個餅乾，計算餅乾上的籌碼，然後嘗試表達我的不確定性（以70％的水平）。因此，罐子的標識（A，B，C或D）是要估算的參數的值。籌碼數量（0、1、2、3或4）是結果或觀察值或樣本。

最初，我是使用常客玩這個遊戲的，佔70％置信區間。這樣的間隔需要確保不管參數的真實值，這意味著無論我得到哪個餅乾罐，該間隔都將以至少70％的概率覆蓋該真實值。

當然，間隔是將結果（一行）與參數值集（一組列）相關聯的函數。但是要構造置信區間並確保覆蓋率達到70％，我們需要“垂直”工作-依次查看每一列，並確保覆蓋70％的概率質量函數，以便70％的時間，該列的標識將成為所產生間隔的一部分。請記住，是形成p.m.f.的垂直列。

因此，完成該過程後，我得到了以下間隔：

enter image description here

例如，如果我抽取的cookie上的籌碼數量為1，則我的置信區間為{B，C，D}。如果數字為4，則我的置信區間為{B，C}。請注意，由於每一列的總和等於或大於70％，所以無論我們真正位於哪一列（無論送貨員投下哪個罐子），此過程產生的間隔都將包括正確的罐子，概率至少為70％。

還請注意，我在構造時間間隔時遵循的過程具有一定的酌處權。在B型列中，我可以很容易地確定包括B的間隔將是0、1、2、3，而不是1、2、3、4。這樣可以使B型廣口瓶（12 + 19 + 24 + 20）的覆蓋率達到75％，但仍達到70％的下限。她說：“您必須將送貨員視為系統的一部分。” “讓我們把罐子的身份本身當作一個隨機變量，讓我們假設，送貨員從他們那裡統一選擇-這意味著他把四個人都裝在卡車上，當他到我們家時，隨機選擇一個，每個概率均等。”

”基於這個假設，現在讓我們來看整個事件的聯合概率-jar類型和您從第一個Cookie提取的籌碼”，她說，繪製了下表：

enter image description here

請注意，整個表格現在是概率質量函數-意味著整個表格的總和為100％。

“好吧，”我說，“您要去哪兒？”

”您一直在關注條件數量的條件概率炸薯條，如果有罐子的話。” “那完全不對！您真正關心的是，根據Cookie上的籌碼數量，它是哪個罐子的條件概率！您70％的時間間隔應該只包括列表罐子，總共有70％的可能性真正的罐子。難道不是更簡單，更直觀嗎？”

“當然，但是我們如何計算呢？”我問到了。我們將需要按比例擴大概率，因此每行總計為100。”她做到了：

enter image description here

“”請注意，現在每一行都是pmf，總和為100％。現在，考慮到第一個cookie上的籌碼數量，這是該男子掉下某個罐子的可能性。”

“有趣，”我說。 “所以現在我們只需要在每行中圈出足夠多的罐子，以達到70％的概率？”我們就是這樣做的，並設置了以下可信度間隔：

enter image description here

每個間隔都包含一組罐子，後驗，總計為70％

“好，等等，”我說。 “我不相信。讓我們將兩種間隔並排比較，並比較它們的覆蓋範圍，並假設送貨員以同等的可能性，信譽來挑選每種罐子。”

這裡它們是：

置信區間：

enter image description here

可信區間：

enter image description here

“看看您的置信區間有多瘋狂？”貝葉斯說。 “當您用零籌碼繪製一個cookie時，您甚至沒有一個明智的答案！您只是說這是空的間隔。但這顯然是錯誤的-它必須是四種罐子之一。您如何生活您自己，在一天結束時說一個間隔，當您知道間隔是錯誤的嗎？，當您拉動3個籌碼的cookie時，同上-您的間隔只有41％的時間是正確的。這個“ 70％”的置信區間就是胡扯。”

“好吧，嘿，”我回答。 “ 70％的時間都是正確的，無論送貨員放下哪個廣口瓶。這要遠遠超過您所說的可信度間隔。如果廣口瓶是B型呢？那麼80％的時間間隔是錯誤的，而且只能在20％的時間內更正！”

“這似乎是個大問題，”我繼續說道，“因為您的錯誤將與罐子的類型相關。如果發出100'貝葉斯'機器人評估您擁有哪種類型的罐子，每個機器人都採樣一個cookie，您告訴我，在B型天，您會期望80個機器人得到錯誤的答案，每個機器人對其信念的相信程度均超過73％錯誤的結論！這很麻煩，特別是如果您希望大多數機器人就正確的答案達成共識。“

”此外，我們還必須做出這樣的假設，即送貨員的行為是統一的，並隨機選擇每種罐子，“ 我說。 “那是從哪裡來的？如果錯了怎麼辦？您沒有與他交談；您沒有採訪過他。但是，您關於後代的所有陳述都是基於關於他的行為的陳述。我不必做任何這樣的假設，即使在最壞的情況下，我的時間間隔也符合其標準。“

”的確，我的可信度間隔確實在B型廣口瓶上表現不佳。“ 。 “但是那又怎樣呢？B型罐子只發生25％的時間。它對我對A，C和D型罐子的良好覆蓋使它平衡了。而且我從不發表廢話。”

”這是真的當我用零籌碼繪製cookie時，我的置信區間確實表現不佳。” “但是那又如何呢？在最壞的情況下（D型罐），無芯片Cookie最多會發生27％的時間。對於這種結果，我可以胡說八道，因為沒有罐會導致超過30個錯誤的答案時間百分比。“

”列表示總和，“我說。

”行表示總和，“ Bayesia說。

“我可以看到我們陷入僵局，”我說。 “我們倆在做的數學陳述中都是正確的，但是我們對量化不確定性的適當方法持不同意見。”

“是的，”我的妹妹說。 “想要餅乾嗎？”

好的答案-只是一個小問題，您說“ ..貝葉斯方法不是說參數有一個真實值，而是說貝葉斯方法是從某個概率分佈中選擇值。..”這是不正確的。貝葉斯擬合概率分佈以表示關於真實，未知，固定值的不確定性。這說明在觀察數據之前已知的情況下，哪些值是合理的。實際概率陳述為$ Pr [\ theta_0 \ in（\ theta，\ theta + d \ theta）| I] $，其中$ \ theta_0 $是真實值，而$ \ theta $是基於信息的假設值$ I $。

...繼續...，但是在理解了“背景”的含義之後，只寫$ p（\ theta）$更為方便。顯然，這會引起很多混亂。

很抱歉，要復活這條非常古老的文章，但要回答一個快速問題，在您的常客批評貝葉斯方法的部分中，您說：“如果真實值是0.37，該怎麼辦？到結束，將是錯誤的時間的75％。“你是怎麼得到這些數字的？ 0.37如何對應75％的錯誤？這是某種類型的概率曲線嗎？謝謝

很酷的插圖！如果允許我們從罐子中取樣n個餅乾，如何調整巧克力片模型的置信度和可信度間隔？當我們在相對頻率上累積數據時，我們能否評價這兩種方法的準確性。交付的罐子？我猜一旦我們對先前的分配相當確定（例如大約30次交付後），貝葉斯方法將做出更好的預測。但是，如果以前的dbn突然更改（例如，由新的送貨員接任），那麼採用“慣常做法”的方法將具有優勢。

@BYS2,，當作者說“如果真實值是0.37，如果是，那麼您的方法從頭到尾運行將花費75％的時間”，他們只是在給出示例數字，捏造。在這種特殊情況下，他們將指的是某個先驗分佈，該分佈的值非常低，為0.37，其中大部分概率密度在其他位置。並且我們假設當參數的真實值恰好為0.37時，示例分佈的性能將非常差，類似於當jar恰好是B型時，貝葉斯的可信度區間嚴重失敗。

作者說：“您會期望80個機器人得到錯誤的答案，每個機器人對錯誤結論的相信程度都超過73％！”，但這應該是對機器人的相信程度，高於72％，因為最低機率是72％。信譽間隔表中的信譽。

user28

2010-09-01 21:01:43 UTC

view on stackexchange narkive permalink

我的理解如下：

背景

假設您有一些數據$ x $，並且您正在嘗試估算$ \ theta $ 。您有一個數據生成過程，該過程描述瞭如何以$ \ theta $為條件來生成$ x $。換句話說，您知道$ x $的分佈（例如$ f（x | \ theta）$。

推斷問題

您的推斷問題是：給定觀察到的數據$ x $，$ \ theta $的值是合理的嗎？

置信區間

置信區間是對上面的問題，在這種方法中，您假設固定的固定值 $ \ theta $。在此假設下，您將使用數據$ x $得出$ \ theta $的估算值（例如，$ \ hat {\ theta} $）。獲得估算值後，您想評估真實值相對於估算值的位置。

請注意，在這種方法下，真實值是不是一個隨機變量，它是一個固定但未知的數量，相反，您的估計是一個隨機變量，因為它取決於從數據中生成的數據$ x $生成過程。因此，您意識到每次重複學習都會得到不同的估算值。

以上理解導致按照以下方法來評估與您的估算有關的真實參數。用以下屬性定義一個區間$ I \ equiv [lb（x），ub（x）] $：

$ P（\ theta \ in I）= 0.95 $

如上構造的區間稱為置信區間。由於真實值是未知的但是固定的，因此真實值在區間內或區間外。置信區間則是關於我們獲得的區間實際上具有真實參數值的可能性的陳述。因此，概率陳述與間隔（即該間隔是否具有真實值的機會）有關，而不是與真實參數值的位置有關。

在此範式中，談論真實值小於或大於某個值的可能性毫無意義，因為真實值不是隨機變量。

可信區間

與經典方法相比，在貝葉斯方法中，我們假設真實值是隨機變量。因此，通過在真參數向量上施加先驗分佈（例如$ f（\ theta）$）來捕獲關於真參數值的不確定性。

使用貝葉斯定理，我們構造後驗分佈通過混合先驗和我們擁有的數據來獲得參數向量（簡稱後驗是$ f（\ theta |-）\ propto f（\ theta）f（x | \ theta）$）。

然後，我們使用後驗分佈（例如，使用後驗分佈的均值）得出一個點估計。但是，由於在這種範式下，真實參數向量是隨機變量，因此我們也想知道點估計中不確定性的程度。因此，我們構造一個間隔，使其滿足以下條件：

$ P（l（\ theta）\ le {\ theta} \ le ub（\ theta））= 0.95 $

以上是一個可靠的間隔。

摘要

可信區間捕獲了我們當前在參數值位置上的不確定性，因此可以解釋為關於參數的概率陳述。

相反，置信區間捕獲了我們獲得的區間的不確定性（即，是否包含真實值）。因此，它們不能被解釋為有關真實參數值的概率陳述。

正如您正確指出的那樣，按照定義，95％的置信區間涵蓋了95％的情況下的真實參數值。因此，您的間隔覆蓋真實參數值的機會是95％。有時您可以根據構造間隔時所做的假設（通常是估計值的正態分佈）來談談參數大於或小於任何邊界的可能性。您可以計算P（theta> ub）或P（ub

喬里斯，我不同意。是的，對於任何參數值，結果區間將覆蓋真實值的可能性大於95％。這並不意味著在進行特定觀察併計算出區間後，鑑於該區間覆蓋了真實值的數據，仍然有95％的條件概率。吐出[0，1]的時間為95％，空值設置為其他5％。有時您會得到一個空集作為間隔，真實值不在95％的概率內！

@ Keith：我明白你的意思，儘管按照定義空集不是間隔。相反，置信區間的概率也不以數據為條件。每個置信區間都來自不同的隨機樣本，因此無論數據如何，抽取樣本的機會使得樣本所基於的95％CI不會覆蓋真實的參數值，僅為5％。

Joris，我使用“數據”作為“樣本”的同義詞，所以我認為我們同意。我的觀點是，在取樣之後，可能會出現某些情況，您可以絕對確定地證明間隔是錯誤的，即間隔不包含真實值。這並不意味著它不是有效的95％置信區間。因此，您不能說置信度參數（95％）可以告訴您有關特定區間完成實驗後的覆蓋概率的信息。得到間隔。只有先驗知悉的後驗概率可以證明這一點。

// @基思：我明白你的意思。因此，在貝葉斯方法中，我在構造相同的間隔之前先進行擴散，然後將其稱為可信間隔。在慣常方法中，如果我可以絕對確定地證明間隔是錯誤的，那麼我要么違反了假設，要么知道真實值。無論哪種情況，95％置信區間都不再有效。所涉及的假設暗示了先驗的擴散，即完全缺乏對真實參數的知識。如果我有先驗知識，那麼我不應該首先計算置信區間。

不，恐怕您還不太了解。在這兩種情況下都不需要“先擴散”。無論您是否具有先驗知識，都可以計算一個置信區間-重點是置信區間根本不在乎。置信區間即使在最壞的情況下也絕對保證其覆蓋概率。至少通常不會與先驗通知的可信度間隔“相同的間隔”。

正如我所說，從形式上來說，完全可以接受的是，在實驗結束時，您會達到一個特定的置信區間，您可以證明該區間不覆蓋真實值。這並不意味著該間隔無效或不是95％的置信區間。當然，如果您再次執行相同的實驗100次，則您必須期望得到的廢話結果少於這些次數的5次，但是只要置信區間涵蓋了重視其他95％的結果。

轉置在可信區間內是正確的-具有產生可信區間的參數值始終是錯誤的，這是完全可以接受的！只要您的先決條件說這些價值是罕見的，請想像一下一個裝有萬億加權硬幣的袋子-其中一個的正面概率為10％，其餘的是公平的硬幣。您的實驗是：從這種分佈中提取硬幣，翻轉硬幣十次，計算離散的正面數，然後在正面概率上聲明95％的可信區間。如果您獲得“ 10％”硬幣，則間隔將始終無法覆蓋。同樣，不要使其無效。

他在Jaynes的一篇論文中http://bayes.wustl.edu/etj/articles/confidence.pdf他構造了一個置信區間，然後表明對於特定樣本，您可以100％確保真實值不在於“置信度”間隔”。這並不意味著CI是“錯誤的”，僅是常識的置信區間不能回答“什麼是包含概率為95％的統計信息的真實值的區間”的問題。可悲的是，這是我們要提出的問題，這就是為什麼通常將CI解釋為好像是對該問題的答案。 :-(

@Keith:我不明白。如果您的意思是10％硬幣只給正面10分之一，而結果卻是正面0，那麼您就無法計算置信區間。如果您在十次中有一個頭部，則您的間隔確實不會覆蓋50％。但我從未聲稱它涵蓋了。我只是聲稱它不太可能涵蓋。我不知道真正的價值。另外，所有置信區間（Wald，Score，Pearson等）在概率空間的邊緣均覆蓋不良，肯定只有10種情況。因此，我不會根據該CI聲明任何內容。我將使用概率計算得出結論。像貝葉斯一樣。

@Keith：但我明白你的意思-真實值不是隨機變量-我同意。我的錯。

喬里斯，我最後的評論是關於“ 95％可信區間”的，而不是置信區間！如果您有一個裝有一萬億枚公平硬幣和一個10％正面硬幣的袋子，而您的實驗是從袋子中隨機均勻地繪製一個硬幣，將其翻轉十次，然後在正面概率上註明可信區間，您的可信區間無論如何都將始終為[0.5，0.5]。因此，如果您碰巧提取了不公平的硬幣，那麼可信區間將永遠是錯誤的。

我也不能同意“所有配置項”的邊緣覆蓋不好。即使在最壞的情況下，任何精確的CI和一些近似的CI都會保證覆蓋範圍始終大於置信度參數（例如95％）。對於一定比例的Blyth-Still-Casella和Clopper-Pearson區間，這是正確的。

@Keith。我應該指定“不良”覆蓋率。太多的覆蓋範圍也是不好的覆蓋範圍。我將以不同的方式陳述它：在邊緣，確切的覆蓋範圍與所選的覆蓋範圍不一致。

@svadalli-貝葉斯方法並不認為$ \ theta *是隨機的*。分佈的不是$ \ theta $（$ \ theta $是固定的，但未知），而是關於* $ \ theta $ *的*不確定性，它是基於有關* $ \ theta $的知識狀態而分佈的。 $ f（\ theta）$正在捕獲的實際概率陳述為$ Pr（\ theta \ text {在區間}（\ theta，\ theta + d \ theta）| I）= f（\ theta）d \ theta $。實際上，完全相同的參數適用於$ X $，也可以認為是固定的，但未知。

Thylacoleo

2010-09-04 15:22:20 UTC

view on stackexchange narkive permalink

我在一個基本點上不同意Srikant的回答。 Srikant說：

“推理問題：您的推理問題是：給定觀測數據x，θ的哪個值是合理的？”

實際上，這是貝葉斯推理問題。在貝葉斯統計中，我們試圖計算P（θ| x），即給定觀測數據（樣本）的參數值的概率。 CREDIBLE INTERVAL是θ的一個間隔，考慮到問題背後的幾個假設，θ的間隔有95％的機會（或其他可能性）包含θ的真實值。 >

給定θ的假設值，觀測數據x是否合理？

在頻率統計中，我們試圖計算P（x |θ），即在給定假設參數值的情況下觀察數據（樣本）的概率。置信區間（可能用詞不當）解釋為：如果多次重複生成隨機樣本x的實驗，則由這些隨機樣本構成的此類區間的95％（或其他）將包含參數的真實值。

腦袋沒？這就是常客統計學的問題，而貝葉斯統計學的主要目的就是要解決這個問題。 >

P（θ| x）= P（θ）P（x |θ）

其中P（θ）是我們的先驗概率； P（x |θ）是以該先驗為條件的數據的概率，P（θ| x）是後驗的概率。先驗的P（θ）本質上是主觀的，但這是關於宇宙的知識的價格-具有非常深刻的意義。

從技術上講，您是正確的，但請注意，置信區間給出了原假設為真的一組參數值。因此，“鑑於我們關於theta的假設，觀測數據x是否合理？”可以重新表述為“給定觀察到的數據x，theta的真實值是一個兼容的假設嗎？”請注意，重新表達的問題並不一定意味著theta被假定為隨機變量。重新表述的問題利用了一個事實，即我們通過檢查假設值是否落在置信區間內來執行無效假設檢驗。

@svadali-置信區間評估* data *的固定假設。因此，在更改等式的“固定”部分時，如果您在觀察數據之前未能考慮假設的可能性，那麼您必然會提出不一致和不一致的結果。更改條件時（例如，通過更改條件，您可以將條件概率從0更改為1）不會“限制”條件概率。先驗概率考慮了這種任意性。完成X的條件是因為我們確定X已經發生-我們確實觀察到X！

suncoolsu

2010-09-16 14:35:44 UTC

view on stackexchange narkive permalink

之前提供的答案非常有用且詳盡。這是我的0.25美元。

置信區間（CI）是一個基於概率的經典定義（也稱為“頻率定義”）的概念，該概率類似於比例，並且基於Kolmogrov的公理式系統（和別的）。

基於Wald和de Finetti的工作（並在其他人的基礎上進行了很多擴展），可以認為可信區間（最高後密度，HPD）起源於決策理論。

由於從事這一工作的人們在給出例子以及貝葉斯和常識性案例中的假設差異方面做得很出色，所以我只強調一些重要的觀點。

CI的依據是，必鬚根據可能發生的實驗重複進行推斷，而不僅僅是基於觀察到的數據，因為HPD完全基於觀察到的數據（並且遵守了我們的先前假設）。
通常，CI與HPD是一致的（由於其在決策理論中的根源）是不一致的（將在後面進行解釋）。連貫性（正如我要向我的祖母解釋的那樣）意味著：給定參數值的下注問題，如果古典統計學家（常客）對CI押注，貝葉斯對HPD押注，則常客將輸掉（不包括小問題）當HPD = CI時）。簡而言之，如果您想將實驗結果總結為基於數據的概率，則該概率就是後驗概率（基於先驗概率）。有一個定理（參見Heath和Sudderth，《統計年鑑》，1978年）（大致）指出：根據數據將概率分配給 $ \ theta $ span>不會使一個肯定的失敗者，當且僅當它是通過貝葉斯方式獲得的。
由於CI並不以觀察到的數據為條件（也稱為“條件性原理” CP），因此可能存在矛盾的例子。費舍爾（Fisher）是CP的大力支持者，並且在未遵循CP的情況下（例如CI）也發現了許多矛盾的例子。這就是為什麼他使用p值進行推理而不是CI的原因。在他看來，p值是基於觀察到的數據（關於p值可以說很多，但這並不是本文的重點）。兩個非常著名的悖論示例是：（4和5）
Cox的示例（《數學統計年鑑》，1958年）： $ X_i \ sim \ mathcal {N}（\ mu，\ sigma ^ 2）$ span>（iid）for $ i \在\ {1，\ dots，n \} $ span>中，我們要估算 $ \ mu $ span>。 $ n $ span>不是固定的，而是通過拋硬幣來選擇的。如果拋硬幣導致H，則選擇2，否則選擇1000。 “常識”估計-樣本均值是無偏估計，方差為 $ 0.5 \ sigma ^ 2 + 0.0005 \ sigma ^ 2 $ span>。當 $ n = 1000 $ span>時，我們用什麼作為樣本均值？將樣本均值估計量的方差用作 $ 0.001 \ sigma ^ 2 $ span>（條件方差）而不是估計量的實際方差不是更好（或更明智），這是巨大的！（ $ 0.5 \ sigma ^ 2 + 0.0005 \ sigma ^ 2 $ span>）。這是CP的簡單說明，當我們使用方差作為 $ 0.001 \ sigma ^ 2 $ span>時，當 $ n = 1000 $ 。 $ n $ span>單獨對於 $ \ mu $ span>和 $ \ sigma $ span>（即 $ n $ span>是它們的輔助），但是鑑於其價值，您對“質量”了解很多數據的”。這直接與CI有關，因為它們涉及方差，不應以 $ n $ span>為條件，即我們最終將使用較大的方差，因此過於保守。
Welch的示例：該示例適用於任何 $ n $ span>，但我們將採用 $ n = 2 $ span>為簡單起見。 $ X_1，X_2 \ sim \ mathcal {U}（\ theta-1/2，\ theta +1/2）$ span>（iid）， $ \ theta $ span>屬於Real行。這意味著 $ X_1-\ theta \ sim \ mathcal {U}（-1/2，1/2）$ span>（iid）。 $ \ frac {1} {2}（X_1 + X_2）{\ bar x}-\ theta $ span>（請注意，這不是統計數據）具有獨立於分佈的分佈的 $ \ theta $ span>。我們可以選擇 $ c > 0 $ span>s.t。 $ \ text {Prob} _ \ theta（-c < = {\ bar x}-\ theta < = c）= 1- \ alpha（\ approx 99 \％）$ ，表示 $（{\ bar x}-c，{\ bar x} + c）$ span>是 $ \ theta $ span>。此CI的解釋是：如果我們重複採樣，我們將得到不同的 $ {\ bar x} $ span>，並且它的99％（至少）倍將包含真實 $ \ theta $ span>，但是，GIVEN數據中的大象（房間裡的大象），我們不知道CI包含真實 $ \ theta $ span>。現在，考慮以下數據： $ X_1 = 0 $ span>和 $ X_2 = 1 $ span>，作為 $ | X_1-X_2 | = 1 $ span>，我們肯定知道區間 $（X_1，X_2）$ span>包含 $ \ theta $ span>（一種可能的批評， $ \ text {Prob}（| X_1-X_2 | = 1）= 0 $ span>，但我們可以用數學方法處理它，我不再討論。）這個例子也很好地說明了一致性的概念。如果您是一位經典的統計學家，那麼您一定會在不考慮 $ | X_1-X_2 | $ span>的價值的情況下下注99％CI（假設您對職業）。但是，僅當 $ | X_1-X_2 | $ span>的值接近1時，貝葉斯才會下注。 -container“> $ | X_1-X_2 | $ span>，間隔是連貫的，玩家將不再是確定的輸家（類似於Heath和Sudderth的定理）。
Fisher對此類問題提出了建議-使用CP。對於Welch的示例，Fisher建議將條件設置為 $ X_2-X_1 $ span>。如我們所見， $ X_2-X_1 $ span>是 $ \ theta $ span>的輔助，但它提供了有關θ。如果 $ X_2-X_1 $ span>是SMALL，則有關 $ \ theta $ span>的信息不多數據。如果 $ X_2-X_1 $ span>為大，則在 $ \ theta $ span>中有很多信息數據。 Fisher將對輔助統計量進行條件調整的策略擴展到稱為 Fiducial Inference 的一般理論（也稱為他的最大失敗，參見Zabell，Stat。Sci。1992），但由於以下原因而沒有流行缺乏普遍性和靈活性。費舍爾試圖找到一種不同於古典統計（內曼學派）和貝葉斯學派的方法（因此，薩維奇著名的格言：“費舍爾想製作貝葉斯煎蛋（即使用CP）而不破壞貝葉斯蛋”）。民間傳說（沒有證據）說：費舍爾（Fisher）在辯論中抨擊內曼（I型和II型錯誤和CI），稱他為“質量控制人員”而不是“科學家”，因為Neyman的方法不以觀察到的數據為條件，而是查看所有可能的重複。
除CP之外，統計學家還希望使用自滿原則（SP）。但是SP和CP一起暗示了似然原理（LP）（參見Birnbaum，JASA，1962年），即給定CP和SP時，必須忽略樣本空間，而僅考慮似然函數。因此，我們只需要在整個樣本空間中查看給定的數據和 NOT （查看整個樣本空間的方式類似於重複採樣）。這就導致了諸如“觀察到的費舍爾信息”（參見Efron和Hinkley，AS，1978年）之類的概念，該概念從頻繁主義者的角度衡量有關數據的信息。數據中的信息量是一個貝葉斯概念（因此與HPD有關），而不是CI。
Kiefer在1970年代後期對CI做了一些基礎性工作，但是他的擴展名尚未流行。很好的參考資料來源是Berger（Stat Sci，2003年，“費舍爾，內曼和杰弗里斯可能同意檢驗假設”）。

摘要：

（如Srikant等人所指出）
CI不能解釋為概率，並且它們不能告訴已知參數GIVEN所觀察到的數據。 CI是關於重複實驗的陳述。

HPD是基於未知參數的後驗分佈的概率區間，並且基於給定數據具有基於概率的解釋。

頻率屬性（重複採樣）屬性是理想的屬性，HPD（具有適當的優先級）和CI都具有它們。 HPD還以給定數據為條件，以回答有關未知參數的問題

（客觀非主觀）貝葉斯主義者同意經典統計學家的觀點，即該參數只有一個TRUE值。但是，它們在推斷此真實參數的方式上都不同。

貝葉斯HPD為我們提供了一種很好的數據條件處理方法，但是如果他們不同意CI的常客屬性，那麼它們就不是很有用了（類比：使用HPD（具有某些先驗經驗）且沒有良好的常客屬性的人），注定要像只關心錘子卻忘記螺絲起子的木匠一樣注定要失敗。

最後，我在這個線程中看到了一些人（Joris博士的評論：“。涉及的假設暗示了一個擴散先驗，即完全缺乏對真實參數的知識。”）談論缺乏對真實參數的知識等同於使用擴散先驗。我不知道我是否可以同意這一說法（基思博士同意我的觀點）。例如，在基本線性模型的情況下，可以通過使用統一先驗（某些人稱為擴散）來獲得某些分佈，但這並不意味著可以將統一分佈視為低信息先驗。通常，NON-INFORMATIVE（Objective）先驗並不意味著它關於參數的信息很少。

注意：這些要點很多都是基於在一位著名的貝葉斯學者的演講中。我仍然是學生，可能以某種方式誤解了他。請提前接受我的道歉。

“常客會輸掉錢”查看最投票的答案，我認為這取決於效用函數（例如，如果遺憾優化正在進行中，則不會）。直觀地講，這可能還取決於確定先前功能的能力。

“頻頻人必將遭受損失” ... *以具備適當的優先權*為條件（通常這並不容易）。完美的例子：賭博成癮者有99％的把握這一次會改變自己的運氣。從長遠來看，那些將這一先驗納入決策分析的人往往做得不好。

我認為在回答可信區間和置信區間之間的區別時，您不應該將置信區間縮寫為* CIs *。

probabilityislogic

2011-06-14 21:37:11 UTC

view on stackexchange narkive permalink

參加一些哲學總是很有趣。我非常喜歡基思的回應，但是我想說他正在擔任“健忘的貝葉斯先生”的職務。只有在每次試驗都應用相同的概率分佈並且拒絕事先更新他的（她）的情況下，B型和C型的不良覆蓋才會出現。

您可以很清楚地看到這一點。，對於A型和D型罐子，可以說是“確定的預測”（分別針對0-1和2-3個籌碼），而B型和C型罐子基本上給出了均勻的籌碼分佈。因此，在重複使用固定的“真罐子”（或者如果我們取樣另一個餅乾）進行實驗時，均勻分佈的薯條將為B型或C型罐子提供證據。

”的觀點認為，類型B和C需要大量樣本才能區分它們。兩種分佈之間的KL散度為$ KL（B || C）\大約0.006 \大約KL（C || B）$。這是一個等效於兩個正態分佈的方差，均具有方差$ 1 $和均值$ \ sqrt {2 \ times 0.006} = 0.11 $。因此，我們不可能期望能夠基於一個樣本進行區分（對於正常情況，我們需要大約320個樣本大小才能在5％的顯著性水平上檢測到這種差異）。這樣我們就可以合理地將B型和C型折疊在一起，直到有足夠大的樣本為止。

現在，這些可信區間會發生什麼？實際上，我們現在已經100％覆蓋了“ B或C”！頻繁間隔時間如何？由於所有間隔都包含B和C或都不包含，因此覆蓋率沒有變化，因此它仍然受到Keith的回應的批評-觀察到3和0籌碼分別為59％和0％。

但是，這裡要務實。如果您針對某個功能進行了優化，則不能期望它對另一功能有效。但是，頻繁者間隔和貝葉斯間隔確實確實達到了期望的可信度/可信度水平。我們有$（0 + 99 + 99 + 59 + 99）/5=71.2$-因此，常客具有適當的平均信譽。我們還有$（98 + 60 + 66 + 97）/4=80.3$-貝葉斯具有適當的平均覆蓋率。

我要強調的另一點是，貝葉斯並不是說“參數是隨機的”。對於貝葉斯（好吧，至少對我而言），概率分佈是對該參數已知信息的描述。在貝葉斯理論中，“隨機性”的概念並沒有真正存在，只有“知道”和“不知道”的概念。 “已知”進入條件，而“未知”則是我們計算概率（如果感興趣的話）的概率，而在擾民時將其邊緣化。因此，一個可靠的間隔描述了有關固定參數的已知信息，並取其平均值。因此，如果我們代替裝滿餅乾罐並知道它是A型的人擔任職務，則無論樣本數量如何，無論取樣多少，他們的信譽間隔都將是[A]。而且它們將100％準確！

置信區間是基於不同可能樣本中存在的“隨機性”或變化。因此，它們考慮的唯一變化是樣本中的變化。因此，對於裝滿了餅乾罐的人來說，置信區間是不變的，而新的餅乾罐是A型。因此，如果從A型罐子中抽出1片餅乾，那麼常客會以70％的信心斷言該類型是即使他們知道罐子是A型，也不是A！（如果他們保持自己的意識形態而忽略了常識）。要看到是這種情況，請注意在這種情況下沒有什麼改變採樣分佈-我們只是簡單地從另一個人的角度了解有關參數的基於“非數據”的信息。

置信度僅當數據更改或模型/採樣分佈更改時，間隔才會更改。如果考慮到其他相關信息，可信度間隔可能會發生變化。

請注意，這種瘋狂的行為肯定不是可信度間隔擁護者實際上會採取的行動；但確實顯示了在特定情況下該方法所依據的理念上的弱點。當您僅對數據集中包含的信息不了解太多參數時，置信區間將發揮最大作用。而且，除非有先驗信息無法置信區間，或者難以找到足夠的輔助統計數據，否則可信度區間在置信區間上將不會有太大改善。

我不能說我理解Keith對jar示例的解釋，這是一個簡單的問題：我重複進行了$ m $次實驗，收集了$ m $個不同的樣本，所以現在我計算出$ m $個不同的配置項（每個配置項的95％置信度），那麼什麼是CI？這是否意味著$ m $ CI的95％應該包含真實價值？

@loganecolss-這確實是正確的，但僅在$ m \ to \ infty $之內。這符合CI的標準“概率” =“長期運行”解釋。

是的，在極限。然後，對於一個或幾個樣本，配置項不代表任何含義，對嗎？如果我沒有大量樣本，那麼計算CI的意義何在？

@loganecolss-這就是為什麼我是貝葉斯人。

@probabilityislogic是否表示最好是在未知（數據量少）的情況下使用貝葉斯方法，而在沒有未知（大數據）結果（最快）的情況下使用頻繁方法？

@nazka-一種。我要說的是，無論您擁有多少數據，總是最好使用貝葉斯方法。如果可以通過常用程序很好地近似此值，則使用該值。貝葉斯不是慢速的代名詞。

@probabilityislogic好的，謝謝！（是的，我的意思是要更快地找到最佳解決方案）。我在Quora上讀到過，例如，如果將貝葉斯和頻繁方法與Quicksort進行比較，則貝葉斯方法將導致最佳間隔，而貝葉斯方法將導致最壞情況間隔。如果是這樣，我認為這確實是描述它們的最佳和最快方法。

Dikran Marsupial

2010-09-04 16:07:45 UTC

view on stackexchange narkive permalink

據我所知：可信區間是對感興趣統計量的值範圍的說明，考慮到我們實際觀察到的特定數據樣本，這些值仍然是合理的。置信區間表示當多次重複實驗時，真實值位於置信區間中的頻率。每次重複實驗都使用來自相同基礎人口的不同數據樣本。

通常，我們要回答的問題是“統計量的哪些值與所觀察到的數據一致”，可信區間給出了該問題的直接答案-統計量的真實值位於概率為95％的可信區間內95％。置信區間不能直接回答這個問題。斷言該統計信息的真實值位於95％置信區間內的概率為95％（除非它恰好與可信區間一致）是不正確的。但是，這是對常識性置信區間的一種非常常見的誤解，因為它會直接回答問題。

我在另一個問題中討論過的Jayne's的論文給出了一個很好的例子（示例＃5）構造了一個完全正確的置信區間，其中基於其的特定數據樣本排除了統計的真實值在95％的置信區間內的任何可能性！這僅是一個問題，如果根據我們觀察到的特定樣本將置信區間錯誤地解釋為統計的合理值的陳述。

最後，這是一個問題的“課程”，哪個間隔最好取決於您要回答的問題-只需選擇直接回答該問題的方法即可。

我懷疑置信區間在分析[指定的]可重複實驗（因為這只是置信區間的假設）時更有用，而可信區間在分析觀測數據時更好，但這只是一種觀點（我同時使用了兩種間隔的時間，但都不會描述自己是專家。

置信區間在重複實驗中的問題在於，為了使它們起作用，可重複實驗的條件需要保持相同（誰會相信？），而貝葉斯區間（如果使用得當）的條件觀察到的數據，從而為現實世界中發生的變化留有餘地（通過數據）。我認為正是貝葉斯統計的“條件規則”使它很難勝過（我認為這是不可能的：只能實現對等），而實現這一目標的自動機械看起來就那麼光滑。

Chester Lin

2013-07-03 11:14:54 UTC

view on stackexchange narkive permalink

我發現許多關於置信區間和可信集的解釋都是錯誤的。例如，置信區間不能以這種格式$ P（\ theta \ in CI）$表示。如果您仔細觀察“常客”和貝葉斯推論中的“分佈”，您會看到“常客”對數據的抽樣分佈進行研究，而貝葉斯對參數的（後）分佈進行研究。它們是在完全不同的“樣本空間”和Sigma代數上定義的。

所以是的，您可以說“如果重複多次實驗，則95％CI中的大約95％將覆蓋真實參數”。儘管在貝葉斯方法中您可以說“統計的真實價值在於95％可信區間內，概率為95％”，但是，這95％的概率（在貝葉斯方法中）本身僅是估計值。（請記住，它基於給定此特定數據的條件分佈，而不是採樣分佈）。由於隨機樣本，此估算器應帶有隨機誤差。

貝葉斯嘗試避免出現I型錯誤問題。貝葉斯總是說在貝葉斯中談論I型錯誤是沒有意義的。這並非完全正確。統計人員總是想衡量“您的數據可以建議您做出決定，而總體上可以建議您做出決定”的可能性或錯誤。這是貝葉斯無法回答的（此處省略了詳細信息）。不幸的是，這可能是統計學家應該回答的最重要的事情。統計人員不僅僅提出決定。統計人員還應該能夠解決該決定有可能出錯的地方。

我必鬚髮明下表和術語來解釋這一概念。希望這有助於解釋置信區間和可信集的區別。

請注意，後驗分佈是$ P（\ theta_0 | Data_n）$，其中$ \ theta_0 $是從先前的$ P（\ theta_0）$定義的。在常客中，採樣分佈為$ P（Data_n; \ theta）$。 $ \ hat {\ theta} $的採樣分佈為$ P（\ hat {\ theta} _n; \ theta）$。下標$ n $是樣本大小。請不要使用符號$ P（Data_n | \ theta）$來表示頻繁抽樣。您可以談論$ P（Data_n; \ theta）$和$ P（\ hat {\ theta} _n; \ theta）$中的隨機數據，但不能談論$ P（\ theta_0 | Data_n）$中的隨機數據。

Confidence Interval vs Credible Set

'???????'解釋了為什麼我們無法評估貝葉斯類型I錯誤（或類似的錯誤）。

請注意，在某些情況下，可以使用可信集來近似置信區間。但是，這僅僅是數學上的近似。解釋應該與常客相提並論。在這種情況下，貝葉斯解釋不再起作用。

胸苷在$ P（x | \ theta）$中的表示法不再常用。這仍然是貝葉斯。當談到頻率論者時，這種表示法引起了量度理論的根本問題。

我同意 Dikran Marsupial的結論。如果您是FDA審評人，您總是想知道您批准藥物申請但該藥物實際上無效的可能性。這是貝葉斯無法提供的答案，至少在經典/典型貝葉斯中是無法做到的。

user36160

2015-09-03 21:20:52 UTC

view on stackexchange narkive permalink

通用且一致的信心和可靠的地區。 http://dx.doi.org/10.6084/m9.figshare.1528163，代碼為 http://dx.doi.org/10.6084/m9.figshare.1528187

提供了用於集合選擇的可信區間和置信區間的描述，以及通用R代碼，用於計算給定的似然函數和一些觀察到的數據。進一步提出了一種檢驗統計量，該檢驗統計量給出了相互一致的最佳大小的可信區間和可信區間。

簡而言之，避免使用公式。貝葉斯可信區間基於給定數據的參數的概率。它將具有高概率的參數收集到可信組/間隔中。 95％可信區間包含給定數據的參數在一起的概率為0.95。

常客的置信區間基於給定某些參數的數據的概率。對於每個（可能無限多個）參數，它首先生成給定參數可能會觀察到的數據集。然後針對每個參數檢查所選的高概率數據是否包含觀察到的數據。如果高概率數據包含觀察到的數據，則將相應的參數添加到置信區間。因此，置信區間是參數的集合，因此我們不能排除參數已生成數據的可能性。這給出了這樣一個規則，即如果反复應用於類似問題，則95％的置信區間將在95％的情況下包含真實參數值。

95％的可信集和95％的置信度集來自負二項式分佈的示例

置信區間的描述不正確。“ 95％”來自總體樣本將產生包含參數真實值的區間的概率。

@jlimahaverford-描述正確無誤。為了鏈接到您所描述的內容，我添加了“這給出了一條規則，使得如果反复應用於類似問題，則95％的可信區間將在95％的情況下包含真實的參數值。”

我不是在談論您對可信區間的描述，而是在談論置信區間。我現在註意到在您的置信區間中段，您再次開始談論可信度，我認為這是一個錯誤。重要的思想是：“如果這是參數的真實值，那麼我在極端或更大的程度上抽取樣本的概率是多少。如果答案大於5％，則是在置信區間內。”

@jlimahaverford-同意並更正-謝謝。

嗯，我沒有看到更正。

@jlimahaverford-現在顯示為“這給出了一條規則，使得如果反复應用於類似問題，則95％的置信區間將在95％的情況下包含真實參數值。”

kjetil b halvorsen

2016-12-24 07:13:30 UTC

view on stackexchange narkive permalink

這更多是評論，但時間太長。在以下論文中：隨機性時代的曙光（大衛·芒福德）芒福德有以下有趣的評論：

雖然所有這些真正令人興奮的用途都來自統計數據，由R.A.爵士領導的大多數統計學家自己。費舍爾將他們的雙手綁在背後，堅持統計只能在完全可複制的情況下使用，然後僅使用經驗數據。這就是所謂的“常客” 與貝葉斯學校戰鬥的學校，貝葉斯學校認為可以使用先驗和極大地使用統計推斷擴展。這種方法否認統計推斷可以與真實想法有關，因為現實生活中總是埋在上下文變量中，並且不能重複。幸運的是，貝葉斯學派並沒有完全死去，而是繼續由DeFinetti，E.T.傑恩斯，還有其他人。

ⓘ

該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到，我們感謝它分發的cc by-sa 2.0許可。

关于 - 法律