這件事可能很難理解:
- 如果平均所有置信區間的95%將包含
參數
- 我有一個特定的置信區間
- 為什麼該間隔也包含參數的概率也為95%?
置信區間與採樣過程有關。如果您要抽取多個樣本並為每個樣本計算95%的置信區間,則會發現其中95%的區間包含總體平均值。
這對於例如工業質量部門很有用。那些傢伙拿了很多樣本,現在他們有信心,他們的大多數估計將非常接近現實。他們知道95%的估算值都不錯,但是對於每個具體的估算值都不能這麼說。
將此與擲骰子進行比較:如果您擲600個(普通)骰子,您將擲出6個?最好的猜測是$ \ frac {1} {6} $ * 600 =100。
但是,如果您擲了一個死,那就沒用了:“我現在有6個概率是1/6或16.6%”。為什麼?因為骰子顯示的是6或其他數字。您是否拋出了6。因此,概率為1或0。概率不能為$ \ frac {1} {6} $。
在擲骰子之前被問到擲一個骰子的概率為6時,貝葉斯會回答“ $ \ frac {1} {6} $”(根據先前的信息:每個人都知道骰子有6個雙方都有相同的機會落入其中一方),但是常客會說“不知道”,因為常客完全是基於數據,而不是先驗或任何外部信息。
同樣,如果您只有1個樣本(因此有1個置信區間),則無法說出總體平均值在該區間內的可能性。平均值(或任何參數)是否在其中。概率是1或0。
此外,置信區間內的值比該區間外的值更有可能是不正確的。我做了一個小插圖;一切均以°C為單位。請記住,水在0°C凍結,然後在100°C沸騰。
情況:在一個寒冷的湖泊中,我們想估算在冰之下流動的水的溫度。我們在100個位置測量溫度。這是我的數據:
- 0.1°C(在49個位置測量);
- 0.2°C(也在49個位置);
- 0°C(在1個位置。這只是水恰好即將結冰);
- 95°C(在一個地方,有一家工廠非法將非常熱水倒入湖中)。
- 平均溫度:1.1°C;
- 標準偏差:1.5°C;
- 95%-CI:(-0.8°C ...... + 3.0°C)。
在此置信區間內的溫度絕對不會比其外的溫度高。該湖中流水的平均溫度不能低於0°C,否則不是水而是冰。該置信區間的一部分(即,從-0.8到0的部分)實際上具有包含true參數的0%概率。
總結:置信區間是一個經常性的概念,因此基於重複樣本的思想。如果許多研究人員將從該湖中取樣,並且所有這些研究人員都將計算置信區間,那麼這些區間中的95%將包含真實參數。但是對於一個單一的置信區間,無法說出包含真實參數的可能性。