題:
確切地說,置信區間是多少?
dsimcha
2011-01-28 06:23:51 UTC
view on stackexchange narkive permalink

我大致和非正式地知道什麼是置信區間。但是,我似乎無法繞過一個相當重要的細節:根據Wikipedia:

置信區間不能預測參數的真實值具有特定的概率在給出實際獲得數據的置信區間內。

我還在該站點的多個地方也看到了類似的觀點。也是來自維基百科的一個更正確的定義是:

如果在重複(可能不同)實驗的許多單獨數據分析中構造了置信區間,則這些區間中包含真實值的比例再次,該參數的置信度將與置信度匹配。

我再次在該站點的多個位置看到了類似的觀點。我不明白如果在重複的實驗中,包含真實參數$ \ theta $的計算出的置信區間的分數為$(1-\ alpha)$,那麼對於實際的計算出的置信區間中,$ \ theta $的概率如何計算?實驗不是$(1-\ alpha)$之外的其他東西?我正在尋找答案中的以下內容:

  1. 澄清以上錯誤定義和正確定義之間的區別。

  2. 對置信區間的形式化,精確定義清楚地表明了第一個定義錯誤的原因。

  3. 第一個定義嚴重錯誤的情況的具體示例,即使基礎模型是正確的。

  4. ol>
這篇文章對置信區間問題進行了很好的討論http://stats.stackexchange.com/questions/2356/are-there-any-examples-where-bayesian-credible-intervals-are-obviously-inferior-t/ 6373#6373。我認為,這篇文章中提到的文章有助於闡明一些原因,正是上述定義對於置信區間正確的原因。通常,在查看配置項如何分解時,人們可以更好地理解它們。
我的一部分為這個問題表示讚賞(+1)。一個相互競爭的部分想要指出:1.絕大多數統計消費者,即出於實用目的而不是出於哲學目的在統計學或市場研究中表達觀點的人們,永遠不會把握這些問題的精妙之處,我們經常不知所措地解釋結果。 2.即使是一些純粹的統計學家,也可能陷入不應該使用隨機樣本的情況下進行所謂的概率陳述的陷阱,例如涉及置信區間的陳述。一個更大的問題。
讓我們進一步分析這一令人費解的置信區間概念。如果95%CI確實是真的,則意味著如果我要進行100次實驗,則在假設無效假設成立的情況下,這100個實驗中有95個將在該置信區間內得出平均值。根據我的一個實驗和置信區間,我可以拒絕無效假設,也可以不拒絕。並不是從本質上說,假設H0為真,那麼真實總體均值將在我進行此實驗的時間的95%的置信區間內。 5%的時間不會下降..
(連續)...在該置信區間內是由於採樣誤差還是原假設不成立?難道所有這些都沒有提到真實人口的意思嗎?畢竟,這就是我們進行統計分析的原因。有人請說明一下!我為此失去了睡眠。謝謝。 [這是Mario評論的其餘部分,是從回复格式轉換而成的。]
@Mario您的假設不正確!在100次重複實驗中,我們期望95個CI(不是均值)*包含*真實(但未知)均值。 CI是隨機的,但真實的總體平均值不是。
[Cumming&Maillardet(2006)](http://www.latrobe.edu.au/psy/cumming/docs/Cumming%20Maillardet%20PM%202006.pdf)上有一篇不錯的論文,指出複制不是95%均值將落入原始CI,但只有83.4%(他們將此值稱為“捕獲百分比”)。原因是有兩個可變性來源:A)原始均值在“ mu”附近的可變性; B)複製均值在“ mu”附近的可變性。大多數人都忘記了A:不必在`mu`周圍構造原始CI!
感興趣的讀者可能還希望看到以下主題:[為什麼95%CI並不意味著95%的機會包含均值?](http://stats.stackexchange.com/questions/26450/)
我最近發布了對置信區間的精確定義,實際上我探索了Schervish(1995)中描述的一般置信集。請參閱引用的帖子[此處](http://stats.stackexchange.com/questions/26450/why-does-a-95-ci-not-imply-a-95-chance-of- contains-the-mean / 81011#81011)。 **參考文獻:** Schervish,M.(1995),《統計理論》,第二版,Springer。
請參閱https://stats.stackexchange.com/questions/167972/why-is-there-a-need-for-a-sampling-distribution-to-find-confidence-intervals/167998#167998的第3節
十 答案:
whuber
2011-01-28 09:47:24 UTC
view on stackexchange narkive permalink

關於置信區間有很多問題,但讓我們集中討論報價。問題在於可能的誤解,而不是正確性。當人們說“參數具有某種可能性”時,他們將參數視為隨機變量。這不是(經典)置信區間過程的觀點,對於該過程,隨機變量是區間本身,並且參數是確定的,不是隨機的,但未知。在數學上,如果我們讓$ t $是將數據$ \ mathbf {x} =(x_i)$映射到參數空間子集的任何過程,並且(無論參數$ \ theta $的值是什麼,斷言$ \ theta \ in t(\ mathbf {x})$都會定義事件$ A(\ mathbf {x})$,然後-根據定義-對於$ \ theta $的任何可能值,概率為$ \ Pr _ {\ theta} \ left(A(\(mathbf {x})\ right)$。當$ t $是具有置信度$ 1- \ alpha $的置信區間過程時,則該概率的最小值(在所有參數值上)為$ 1- \ alpha $。 (根據此標準,我們通常選擇優化某些附加屬性的過程,例如產生較短的置信區間或對稱的區間,但這是另一回事。)然後,大數定律弱化了第二個引號。但是,這並不是對置信區間的定義:它只是它們具有的一個屬性。

我認為該分析已經回答了問題1,表明問題2的前提不正確,因此使問題3成為可能。辯論。

感謝您提供一個很好的問題的答案。我可以提出以下類比作進一步討論嗎?假設我一遍又一遍地擲硬幣。然後,$ P(Head)= .50 $。現在,我一次拋硬幣,但不向您展示我拋硬幣的情況,而是問:“抬頭的概率是多少?”。您將如何回答這個問題?
用另一種表達方式:非貝葉斯主義者,唯一可能具有可能性的“事物”是可能的事件-就隨機實驗的未來結果而言。假設參數具有固定的true值,則一旦您有一個具有特定值的間隔,無論該參數是否包含在間隔中,就不再可能發生。因此,您可以對生成間隔的過程充滿信心,但不能對兩個特定數字有信心。
@caracal-值得深思的是,每一次真正的“隨機”交易都是一次“硬幣翻轉”嗎?如果您說“是”,那麼您會拒絕這樣的想法,即硬幣是否朝上是許多事物(例如風,高度,翻轉力和翻轉角度,硬幣重量等)的確定性(但複雜)的函數)。我認為這顯示了適用於基於CI的思維的“隨機性”的“雙重標準”,“數據”是固定的,但我們不確定其價值(人為**數據是隨機**),而*參數*是固定的,但我們不確定其值(錯誤**參數不是隨機的**)。
很好的類比@wolfgang(+1來自我)。這正是解釋CI的方式。
-1
很棒的討論。我不確定是否理解所有要點。我提出了一個類比,因為我認為一個人可以很好地回答“在該特定的翻轉中抬頭的概率為.5”。我猜想在一個常客制框架下,這種說法在技術上是不正確的(因為該事件已經發生,所以無論是正面還是反面),所以我做出概率陳述的唯一方法是參考長期相對頻率。但是我不禁想到:好吧,在\ bold {th​​at}翻轉時,概率為0.5(在我看到實際結果之前)。
@Wolfgang我看不到您的示例與置信區間的關係。您不需要任何與分佈參數有關的信息。您的情況與*預測間隔最密切相關。*我認為整個討論都可能與此有關,但它並不屬於有關置信區間的話題。
-1
-1
Chris Taylor
2011-02-02 15:31:07 UTC
view on stackexchange narkive permalink

在考慮置信區間時,我發現這個思想實驗很有幫助。它還會回答您的問題3。

讓$ X \ sim U(0,1)$和$ Y = X + a- \ frac {1} {2} $。考慮兩個$ Y $觀測值,分別取值$ y_1 $和$ y_2 $對應於$ X $觀測值$ x_1 $和$ x_2 $,並令$ y_l = \ min(y_1,y_2)$和$ y_u = \ max(y_1,y_2)$。那麼$ [y_l,y_u] $是$ a $的50%置信區間(因為如果$ x_1< \ frac12<x_2 $或$ x_1> \ frac12>x_2 $包含該區間,則該區間包括$ a $),每個概率為$ \ frac14 $。

但是,如果$ y_u-y_l> \ frac12 $,則我們知道區間包含$ a $的概率為$ 1 $,而不是$ \ frac12 $。精妙之處在於,參數的$ z \%$置信區間意味著區間的端點(是隨機變量)位於參數的兩側,概率為$ z \%$ ,然後計算區間,而不是計算間隔後參數位於間隔內的概率為$ z \%$

注意$ Y> a $幾乎可以確定,因此區間$ [y_1,y_u] $包含參數$ a $,概率為零。實際上,如果您要估計的是$ \ theta = a + \ frac12 $,則您的論點有效。
我認為此反例無效,因為您僅在看到$ y_u-y_l> 1/2 $後才知道間隔包含$ \ theta $的概率。在我們獲得更多信息之後概率應該發生變化是完全合理的。如果您只知道該間隔是50%的置信區間,那麼該概率仍將是1/2(儘管這是貝葉斯概率,不是常客概率,因為它適用於沒有長期運行頻率的特定事件)
這確實是一個很好的例子,但是我非常不同意您關於概率的陳述,在計算置信區間之前或之後,概率會有所變化。那沒有任何意義,給人的印像是數學在某種程度上關心著你所知道的和你所不知道的。不是!您*總是*擁有$ \ mathbb {P}([y_l,y_u]中的\ a)是$ \ tfrac {1} {2} $。您還*總是*擁有$ \ mathbb {P}([y_l,y_u] \; | \; y_u-y_l> \ tfrac {1} {2}中的\\)是$ 1 $。這不是矛盾,一個僅僅是無條件概率,而另一個是有條件概率。
@fgp,是的,也許Taylor在談論概率變化方面措辭不佳。概率沒有改變。論據所顯示的是,情況容易出現,這表明對CI的錯誤理解會導致邏輯問題。如果您認為所觀察到的配置項正確的可能性為50%,但不可能正確,那麼您就知道配置項是錯誤的。
probabilityislogic
2011-01-30 12:15:56 UTC
view on stackexchange narkive permalink

我不會將CI的定義稱為錯誤,但是由於存在多個概率定義,因此容易誤解。配置項基於以下概率定義(頻率論者或本體論者)

(1)一個命題的概率=長期觀察該命題為真的次數的比例,該條件取決於數據生成過程

因此,為了在概念上有效地使用CI,您必須 接受概率的定義。如果您不這樣做,那麼從理論的角度來看,您的間隔就不是CI。 >概率,以明確使用概率的“長期運行”定義。

概率的主要替代定義(認識論或概率是演繹邏輯或貝葉斯的擴展) )是

(2)一個命題的概率=該命題是真實的合理信念程度,以知識狀態為條件

人們通常會直觀地混合使用這兩種定義,並使用碰巧符合其直覺的任何解釋。這會使您陷入各種令人困惑的情況(尤其是當您從一種範例轉到另一種範例時。)。

兩種方法通常會導致相同的結果,這意味著在某些情況下,我們有: / p>

該命題是正確的合理信念程度,以知識狀態為條件=長期觀察到該命題為事實的時間比例,該條件取決於數據生成過程

關鍵是它不能普遍地存在,所以我們不能期望兩個不同的定義總是導致相同的結果。因此,除非您實際計算出貝葉斯解決方案,然後發現它是相同的區間,否則您不能將CI給出的區間解釋為包含真實值的概率。如果這樣做,則該間隔不是置信區間,而是可信區間。

我不明白為什麼根據定義1提出命題的概率應該是一個有理數。 *長期比例*似乎是指時間比例的極限,以使該命題被觀察為真實。每個比例都是一個有理數,但它們的極限可能不是。 (幸運的是,您的這個括號似乎與您的其餘答案都是相切的。)
@probability這個答复似乎以一種不太建設性的方式使我們脫離了切線。等同概率和比例是本體論混淆的一種形式,類似於將溫度與溫度計中的汞含量相等:一種是理論上的構造,另一種是用來測量它的物理現象。在http://stats.stackexchange.com/questions/1525/whats-the-difference-between-a-probability-and-a-proportion/4850#4850中對此進行了一些討論。
@Didier-您是對的,實際上$ x_n = \ frac {r} {2x_ {n-1}} + \ frac {x_ {n-1}} {2}的序列\ rightarrow \ sqrt {r} $ ,這是不合理限制的有理用語。我已刪除此評論。感謝您提出來。
@whuber-提出這一點很重要,因為正是這種誤解導致人們以錯誤的方式解釋CI。將概率與“合理的信仰程度”混淆不符合常客主義範式。這就是當您將CI表示“真值在區間中的概率”時發生的情況,這就是@dsimcha在此問題中所做的。
@probability謝謝您的解釋。我理解您的答复符合“概率=比例”的定義。實際上,仔細閱讀仍表明這是您在第三段中所說的內容,即使您的評論現在將其描述為一種誤解。您可能需要澄清這一點。
(1)真的是公認的經典概率定義嗎?我發現它是圓形的,我自己也使用了另一個。具體而言,長期比例是隨機變量,僅以概率接近概率。我使用的定義是一個多世界的解釋,其中概率是相關可能期貨的比例。我的理解是,量子物理學與這種解釋並沒有發生衝突,但是很難通過共進化場來確定。
@sesqu-但是對“許多世界”的解釋是沒有用的,因為我們只觀察到其中一個!怎麼知道“其他世界”服從的概率與這個特定世界一樣? (也許在其他世界中不存在邏輯-我們怎麼會知道?)它是完全武斷的(至少對我們這個世界而言),並且完全基於假設。 (顯然,我不是“許多世界”的訂戶-我認為這與上帝的存在與否一樣可證明)。
@sesqu-在回复您的其餘評論時,您可能對循環性有一點看法。無論如何,我都不喜歡將概率定義為頻率,但這不是問題答案的重點。如果您用我的定義代替我的定義,我認為它不會改變結論,因為它可以與“理性信念程度”相混淆(我認為這是定義概率的最佳方法-它們僅是已知的)存在於您的頭腦中,為什麼不這樣定義它們呢?)
@probabilityislogic-如果將概率定義為心態,則我們將失去衍生的結果(從描述長度的角度來看可能是共軛後驗的除外)。考慮二項式分佈-如果將概率$ P(K = k | p,N)$定義為信念,那麼該信念的$ p $參數是什麼?沒有可能性。必須將二項式視為β-二項式的極限情況。雖然這些並發症可能被證明是可以控制的,但我認為“理性信念”是不可能的。至於其他世界的行為也是如此:在條件iid假設中總是明確指出這一點。
@sesqu-這是一個信念,條件是*知道* $ p $和*知道* $ N $,並且*知道*它們是二項式分佈的參數。但是,一旦我們實際觀察到值$ K $(它是$ k $或不是),則該概率為$ 0 $或$ 1 $。發生了什麼變化?只是我們的心境
@sesqu-關於“ iid”的評論:這可能是正確的,但是如果您考慮“替代世界”視圖,則無法驗證。在“單一世界”視圖中,您可以比較觀察值並驗證iid假設的一致性,但是在“替代世界”中,您如何做到這一點?您必須能夠研究其他世界,看看它們能帶來什麼結果。應該怎麼做呢?
@sesqu-一種更好的考慮iid假設的方法是,它是您可以對數據進行的最少限制的假設之一。每個數據點均可“自由”漫遊,而不受其他數據點的限制。
@probabilityislogic-我試圖提出的問題是$ p $的性質。您對$ k $的信念如此特別地以什麼為條件?為什麼以這種特定方式以$ p $為條件?
@sesqu-因為這是被放入概率中的信息(即$ | $右側的條件,以及您關於二項式分佈所做的陳述)。概率僅在有條件的情況下存在,您必須指定要在什麼條件下計算概率(即必須指定心態)
@sesqu-似乎您是在按照“一個人怎麼會持有這種特殊的信念/知識”的方式問一些問題?我在這個假設中是正確的嗎?
@probabilityislogic-是的。如果重新定義了概率,則不能再將歸納和歸納理由用於各種分佈。需要在此信念系統內重新推導諸如二項式的分佈,據我的理解,這僅是通過以假名“理性”將​​必要的公理嫁接到系統上來完成的。這些公理是非確定性解釋所固有的。
@sesqu-一個例子是作為限制形式的採樣$ N $球而無需更換,我知道“紅色”和“藍色”球的數量;並且它們都趨於無窮大,以致$ \ frac {R} {R + B} = p $固定在極限內。然後,我讓$ K $為$ N $抽獎中抽出的紅球的數量。但是,您始終需要對限制的執行方式有所注意,因為不同的限製過程可能會產生不同的結果。當然,該討論已被忽略了,因此,如果您希望沿著這條路繼續思考,建議您開始撰寫新文章。
kst
2012-03-13 22:58:35 UTC
view on stackexchange narkive permalink

R.A。 Fisher對於置信區間的有用性有一個標準:CI不應承認暗示不同置信度的“可識別子集”。在大多數(如果不是全部)反例中,我們會遇到具有可識別概率不同的可識別子集的情況。

在這種情況下,您可以使用貝葉斯信度間隔來指定參數的主觀感覺,或者可以給定數據來製定似然區間以反映參數的相對不確定性。

例如,似乎相對無矛盾的一種情況是總體均值的兩面法線置信區間。假設從具有給定標準值的正常人群中採樣,則95%CI承認沒有可識別的子集,該子集不會提供有關該參數的更多信息。這可以從以下事實看出:樣本均值在似然函數中具有足夠的統計量-即,一旦我們知道樣本均值,似然函數就獨立於各個樣本值。

正常均值的95%對稱CI的任何主觀置信度,都較少來自所述的覆蓋概率,更多地是因為正常均值的對稱95%CI是“最高似然”區間,即,間隔比間隔外的任何參數值都具有更高的可能性。但是,由於似然不是概率(從長期準確性的角度來看),所以它更多是一種主觀標準(就像先驗和似然的貝葉斯用法一樣)。總之,法向平均值的無限多個區間具有95%的覆蓋率,但只有對稱CI具有我們期望的區間估計的直觀似然性。

因此,R.A。 Fisher準則暗示,覆蓋率僅在不承認這些可識別子集的情況下,才應與主觀信心等同。如果存在子集,則覆蓋概率將取決於描述子集的參數的真實值。為了獲得具有直觀置信度的區間,您需要根據適當的輔助統計條件對區間估計進行條件調整,以幫助識別子集。或者,您可以求助於分散/混合模型,這自然會導致將參數解釋為隨機變量(也就是貝葉斯統計量),或者您可以在似然框架下計算輪廓/條件/邊際似然。無論哪種方式,您都放棄了客觀上可驗證的正確性的希望,只是主觀的“偏好排序”。

希望這會有所幫助。

(+1)證明對稱法線CI的一種方法是將期望的長度最小化。歸根結底,這只是將主觀性推回到了長度選擇的決策過程中,作為損失函數:但這可以說是一種“好的”主觀性(因為它揭示了我們在選擇統計程序時分析目標的作用),而不是“壞的”主觀性,聽起來僅像是一些貶義詞。
probabilityislogic
2011-01-28 21:32:33 UTC
view on stackexchange narkive permalink

從理論角度看,問題2和3基於錯誤的假設,即定義錯誤。因此,我在這方面同意@whuber的回答,@ whuber對問題1的回答不需要我提供任何其他投入。

但是,從更實際的角度來看,當置信區間與基於相同信息的貝葉斯可信區間在數值上相同時(例如,非信息性先驗值),可以給它一個直觀的定義(包含真值的概率)。

但這對於頑固的反貝葉斯方法有些沮喪,因為為了驗證給他的CI提供條件的條件,他/她必須給出貝葉斯解決方案,而貝葉斯解決方案將自動保留直觀的解釋! p>

最簡單的示例是正常均值的$ 1- \ alpha $置信區間,具有已知方差$ \ overline {x} \ pm \ sigma Z _ {\ alpha / 2} $和$ 1- \ alpha $後驗可信區間$ \ overline {x} \ pm \ sigma Z _ {\ alpha / 2} $。

我不確定條件是否正確,但我知道信任對於保持CI的直觀解釋很重要:

1)存在數據透視統計,其分佈與參數無關(精確的數據是否存在於正態分佈和卡方分佈之外?)

2)沒有任何令人討厭的參數(除非是數據透視統計,這是在製作CI時必須處理的討厭的參數的少數 exact 之一)

3)感興趣的參數存在足夠的統計量,並且置信區間使用了足夠的統計量

4)充分統計量的抽樣分佈和後驗分佈在充分統計量和參數之間具有某種對稱性。在正常情況下,採樣分佈的對稱性為$(\ overline {x} | \ mu,\ sigma)\ sim N(\ mu,\ frac {\ sigma} {\ sqrt {n}})$而$( \ mu | \ overline {x},\ sigma)\ sim N(\ overline {x},\ frac {\ sigma} {\ sqrt {n}})$。

這些條件通常很困難進行查找,通常可以更快地計算出貝葉斯區間並進行比較。一個有趣的練習可能是嘗試回答以下問題:“什麼時候我的CI也是可信區間?”通過查看此先前知識,您可能會發現有關CI程序的一些隱藏假設。

(+1)真的有“反貝葉斯”這樣的人嗎? :-)
@whuber [這裡是一個](http://www.phil.vt.edu/dmayo/personal_website/)。 [這是一位計量經濟學家](http://www.econ.vt.edu/faculty/facultybios/spanosbio.htm)與她合作進行了統計哲學方面的獎學金研究。
謝謝!在我不知道的概率和統計哲學中,這是一個非常有趣的線索。
您是否將$ \ overline x \ pm \ frac {z _ {\ alpha / 2} \ sigma} {\ sqrt {n}} $誤寫為缺少$ \ sqrt {n} $?
Pieter Hogendoorn
2017-02-01 16:21:59 UTC
view on stackexchange narkive permalink

這件事可能很難理解:

  • 如果平均所有置信區間的95%將包含 參數
  • 我有一個特定的置信區間
  • 為什麼該間隔也包含參數的概率也為95%?

置信區間與採樣過程有關。如果您要抽取多個樣本並為每個樣本計算95%的置信區間,則會發現其中95%的區間包含總體平均值。

這對於例如工業質量部門很有用。那些傢伙拿了很多樣本,現在他們有信心,他們的大多數估計將非常接近現實。他們知道95%的估算值都不錯,但是對於每個具體的估算值都不能這麼說。

將此與擲骰子進行比較:如果您擲600個(普通)骰子,您將擲出6個?最好的猜測是$ \ frac {1} {6} $ * 600 =100。

但是,如果您擲了一個死,那就沒用了:“我現在有6個概率是1/6或16.6%”。為什麼?因為骰子顯示的是6或其他數字。您是否拋出了6。因此,概率為1或0。概率不能為$ \ frac {1} {6} $。

在擲骰子之前被問到擲一個骰子的概率為6時,貝葉斯會回答“ $ \ frac {1} {6} $”(根據先前的信息:每個人都知道骰子有6個雙方都有相同的機會落入其中一方),但是常客會說“不知道”,因為常客完全是基於數據,而不是先驗或任何外部信息。

同樣,如果您只有1個樣本(因此有1個置信區間),則無法說出總體平均值在該區間內的可能性。平均值(或任何參數)是否在其中。概率是1或0。

此外,置信區間內的值比該區間外的值更有可能是不正確的。我做了一個小插圖;一切均以°C為單位。請記住,水在0°C凍結,然後在100°C沸騰。

情況:在一個寒冷的湖泊中,我們想估算在冰之下流動的水的溫度。我們在100個位置測量溫度。這是我的數據:

  • 0.1°C(在49個位置測量);
  • 0.2°C(也在49個位置);
  • 0°C(在1個位置。這只是水恰好即將結冰);
  • 95°C(在一個地方,有一家工廠非法將非常熱水倒入湖中)。
  • 平均溫度:1.1°C;
  • 標準偏差:1.5°C;
  • 95%-CI:(-0.8°C ...... + 3.0°C)。

在此置信區間內的溫度絕對不會比其外的溫度高。該湖中流水的平均溫度不能低於0°C,否則不是水而是冰。該置信區間的一部分(即,從-0.8到0的部分)實際上具有包含true參數的0%概率

總結:置信區間是一個經常性的概念,因此基於重複樣本的思想。如果許多研究人員將從該湖中取樣,並且所有這些研究人員都將計算置信區間,那麼這些區間中的95%將包含真實參數。但是對於一個單一的置信區間,無法說出包含真實參數的可能性。

不要混淆常客統計不能衡量信仰的事實,而不是先有常客並更新過常客的常客。區別不在於常人是否是沒有數據以外知識的白痴,而是常人的統計數據是否提供了對信仰狀態的直接衡量。該常客必鬚根據測試,配置項等來更新其信念。否則,他們的整個系統將無法正常工作,因為一切都取決於所做出的決定。
Benoit Sanchez
2017-06-16 15:21:57 UTC
view on stackexchange narkive permalink

假設我們處在一個簡單的情況中。您有一個未知的參數$ \ theta $和$ T $的一個估計值$ \ theta $,其不精確度約為1(非正式)。您認為(非正式地)$ \ theta $應該最經常出現在$ [T-1; T + 1] $中。

在一個真實的實驗中,您觀察到$ T = 12 $。

自然會問一個問題:“給我看($ T = 12 $),$ \ theta \ in [11; 13] $的概率是多少?”。數學上:$ P(\ theta \ in [11; 13] | T = 12)$。大家自然會問這個問題。置信區間理論應該從邏輯上回答這個問題。但事實並非如此。

貝葉斯統計量確實回答了這個問題。在貝葉斯統計中,您實際上可以計算$ P(\ theta \ in [11; 13] | T = 12)$。但是在進行實驗並觀察$ T $之前,您需要假設一個先驗是$ \ theta $的分佈。例如:

  • 假設$ \ theta $在$ [0; 30] $上具有先驗分佈
  • 進行此實驗,找到$ T = 12 $
  • 應用貝葉斯公式:$ P(\ theta \ in [11; 13] | T = 12)= 0.94 $

但是在常客統計中,沒有先驗,因此不存在$ P(\ theta \ in ... | T \ in ...)$之類的東西。相反,統計學家說的是這樣的: “無論$ \ theta $是什麼,[T-1; T + 1] $中$ \ theta \的概率都是$ 0.95 $”。數學上:$ \ forall \ theta,P(\ theta \ in [T-1; T + 1] | \ theta)= 0.95 $“

所以:

  • 貝葉斯:$ P(\ theta \ in [T-1; T + 1] | T)= 0.94 $ for $ T = 12 $
  • 常客:$ \ forall \ theta,P(\ theta \ in [T-1; T + 1] | \ theta)= 0.95 $

貝葉斯陳述更為自然。通常,經常性陳述會被自然地誤解為貝葉斯陳述(被任何多年未進行統計的正常人腦所誤解)。老實說,許多統計書都沒有明確指出這一點。

實際上呢?

在許多通常情況下,事實是,通過常識和貝葉斯方法獲得的概率非常接近。因此,使貝葉斯一詞的常客主義說法混亂不大的後果。但是“從哲學上”這是非常不同的。

Ringold
2011-01-28 23:14:05 UTC
view on stackexchange narkive permalink

好吧,我意識到,當您使用經典的頻率論方法為某個參數計算一個95%的置信區間時,這並不意味著該參數位於該區間內的可能性為95%。但是...當您從貝葉斯角度解決問題併計算參數的95%可信區間時,您得到(假設是非信息性先驗)與您獲得的區間完全相同使用經典方法。因此,如果我使用經典統計數據來計算(例如)數據集平均值的95%置信區間,則 確實是該參數存在該區間的概率為95%。

您是否使用頻繁的置信區間和貝葉斯可信區間來獲得相同的結果取決於問題,尤其取決於貝葉斯方法中使用的先驗分佈。在數學和科學中也很重要的一點是,當您正確時,您就是正確的正確原因!
如果“使用經典統計數據計算[參數]的95%置信區間”,則如果您始終如一地推理,則指“參數位於該區間的概率”是“毫無意義的”。提到該可能性的那一刻,您已經更改了情況的統計模型。在參數為隨機的新模型中,使用頻繁方法計算CI是不正確的。在某些情況下以這種方式獲得正確的答案很有趣,但並不能證明其背後的概念混亂。
@whuber-您的前提條件“ ...如果您始終如一地推理...”則源於良好的舊Cox定理。它表示,如果您始終如一地推理,那麼您的解決方案在數學上必須等價於貝葉斯解決方案。因此,在此前提下,CI必定等於可信區間,並且將其解釋為概率是有效的區間。在貝葉斯中,具有分佈的不是參數,而是具有分佈的不確定性。
...繼續...所以可以玩一個愚蠢的遊戲,我是貝葉斯(Bayesian)“參數在區間內的概率”,我是常客“區間(interval Covering parameter)”,我是貝葉斯...,我是常客,...,我是貝葉斯人,...,我是常客,.....儘管如此,實際計算的數字始終不變
Curious
2012-02-17 16:38:22 UTC
view on stackexchange narkive permalink

您正在詢問頻繁度置信區間。定義(請注意,您的2個引用都不是定義!只是陳述,兩個都是正確的):

如果我重複了多次該實驗,則這個具有此參數值的擬合模型,在95%的實驗中,參數的估計值將落在該區間內。

因此,您有一個模型(使用觀察到的數據)及其估算參數。然後,如果您根據此模型和參數生成了一些假設數據集,則估計的參數將落入置信區間內。

因此,實際上,這種頻繁使用的方​​法需要該模型和估計的參數是固定的(給定的),並將您的數據視為不確定的-作為許多其他可能數據的隨機樣本。

這確實很難解釋,而且通常用作貝葉斯統計量的參數(我認為有時可能沒有爭議。另一方面,貝葉斯統計量將您的數據視為固定數據,並將參數視為不確定參數。貝葉斯可信區間/ strong>實際上是直觀的,就像您期望的那樣:貝葉斯可信區間是實際參數值佔95%的區間。

但是實際上,許多人以相同的方式解釋常客的置信區間因為貝葉斯可信區間和許多統計學家認為這不是很大問題-儘管他們都知道,但這不是100%正確的。同樣在實踐中,當使用貝葉斯非信息先驗時,頻率和貝葉斯置信度/可信區間不會有太大差異。

-1您的“定義”似乎不正確,至少在一次閱讀中是不正確的。 $ 1- \ alpha $ CI被構造為以概率$ 1- \ alpha $覆蓋* true *參數。它不取決於特定模型或參數擬合方法。不過,也許我會誤解了定義:我採用“具有此參數值的擬合模型”來指代您當前對參數的“估計”。如果這不是您的預期目的,也許您可以澄清這一點?
-1
我已經澄清了我的評論,Tomas,因為它發生在我身上,我可能會以您不希望的方式閱讀您的定義。 Kiefer,《統計推斷導論》,寫道:“假設實驗結果為$ X $ ... [S],假設過程$ t = [L,U] $用於估計$ \ phi(\ theta)$,而$ \ theta $的真實值為$ \ theta_0 $ ... [T]數量$ \ gamma_t(\ theta_0)= \ Pr _ {\ theta_0} \ {L(X)\ le \ phi( \ theta_0)\ le U(X)\} $ ...數字$ \ bar {\ gamma} _t = \ inf _ {\ theta \ in \ Omega} \ gamma_t(\ theta)$被稱為*置信係數*過程$ t $ ... $ t $中的一個稱為“置信區間”。
@whuber,您的定義對我來說真的很難理解,而且我對大多數人也很害怕:)是的,我的意思是當前估計,因為常客獲得給定的參數估計和隨機的數據,這與貝葉斯相反。
我對您表示同情:置信區間是一個很難理解的概念,很難在網上找到可信的準確定義(即使[Wikipedia](http://en.wikipedia.org/wiki/Confidence_interval#Intervals_for_random_outcomes)也有限制)。我意識到這種表示法假設了一種數學設置的(常規)知識,其中定義了常識置信區間(注意,維基百科使用類似的表示法)。但是,這種表達方式是明確而明確的,它描述的概念與您作為“置信區間”提出的概念大不相同。
因為我不太了解您的定義,所以不能肯定地說,但我仍然認為我的定義是正確的。也許關鍵問題是您對* true *參數的理解。或者,也許您可以修改我的英語定義以適合您的英語?如果定義有意義,則應將其翻譯成英文。
我認為定義Curious中的主要問題是:“ ...參數的估計值將落在區間內。”它不是估計的參數,而是未知的固定參數。並且它不在該間隔內,而是間隔在移動,並且95%的時間捕獲了該參數。
@John感謝您的澄清。因此,換句話說,我可以說*單個95%-Ci有95%的機會包含真實(或固定)值*?
不,請參閱有關此主題的其他評論和答案。概率永遠不會與單個CI相關聯。它僅與可以在95%的時間內做出正確判斷(並且需要做出判斷)的過程相關。
Ben
2020-04-29 06:37:57 UTC
view on stackexchange narkive permalink

“置信區間”是“置信集”更廣泛概念的特定情況,它可以是也可以不是單個連接的區間。可以從數學上如下設想更廣泛的概念。假設我們有一個來自未知參數 $ \ mathbf {X} \ equiv(X_1,...,X_n)$ span> math-container“> $ \ theta \ in \ Theta $ span>。然後,從集合函數 $ \ mathcal {S} $ span>中創建 $ \ theta $ span>的confidence set滿足以下條件概率要求:

$$ 1- \ alpha = \ mathbb {P}(\ theta \ in \ mathcal {S}(\ mathbf {X},\ alpha)| \ theta) \ quad \ quad \ quad \ text {適用於所有\ \ theta \ in \ Theta \ text {和} 0 \ leqslant \ alpha \ leqslant 1。$$ span>

請注意,如果 $ \ theta $ span>被認為是隨機變量,則此要求還意味著與邊際有關的以下 weaker 屬性包含的可能性:

$$ 1- \ alpha = \ mathbb {P}(\ theta \ in \ mathcal {S}(\ mathbf {X},\ alpha)) \ quad \ quad \ quad \ text {for all} 0 \ leqslant \ alpha \ leqslant 1。 \ quad \ quad \ quad \ quad $$ span>

現在,對於給定值 $ 0 \ leqslant \ alpha \ leqslant 1 $ span>,給定一個與上述條件概率要求相稱的集合函數,數據 $ \ mathbf {x} $ span>(置信度 $ 1- \ alpha $ span>)是固定的設置 $ \ mathcal {S}(\ mathbf {x},\ alpha)$ span>。在這是單個連接間隔的情況下,我們稱其為置信間隔。

可以看出,置信度集是由觀察數據確定的固定集。這樣,就不可能對其固定參數的覆蓋範圍做出任何非退化的概率陳述。但是,如果我們將數據視為隨機數據,則可以看到隨機置信度集將包含參數 $ \ theta $ span>的條件值,其概率等於置信度水平。這與條件值無關,因此保持有效,因此,如果 $ \ theta $ span>是隨機變量,它也將作為邊際屬性保留。正如相關答案中討論的那樣,這是一個非常有用且強大的屬性。


該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 2.0許可。
Loading...