貝葉斯：似然函數的奴隸？

題:

貝葉斯：似然函數的奴隸？

Zen

2012-10-02 02:01:14 UTC

view on stackexchange narkive permalink

拉里·瓦瑟曼（Larry Wasserman）教授在他的書《全部統計》中提出了以下示例（第11.10頁，第188頁）。假設我們有一個密度$ f $，使得$ f（x）= c \，g（x）$，其中$ g $是一個已知（負，可積）函數，並進行歸一化常量$ c>0 $ 未知。

我們對無法計算$ c = 1 / \ int g（x）\，dx $的情況感興趣。例如，可能$ f $是一個非常高維的樣本空間上的pdf。

眾所周知，即使$ c $未知，也有一些模擬技術可以使我們從$ f $中進行採樣。因此，難題是：我們如何從這樣的樣本中估算$ c $？

教授。 Wasserman描述了以下貝葉斯解決方案：讓$ \ pi $成為$ c $的先驗值。可能性為$$ L_x（c）= \ prod_ {i = 1} ^ nf（x_i）= \ prod_ {i = 1} ^ n \ left（c \，g（x_i）\ right）= c ^ n \ prod_ {i = 1} ^ ng（x_i）\ propto c ^ n \，。$$因此，後$$ \ pi（c \ mid x）\ propto c ^ n \ pi（c）$$不依賴在樣本值$ x_1，\ dots，x_n $上。因此，貝葉斯不能使用樣本中包含的信息來推斷$ c $。

教授。 Wasserman指出：“貝葉斯函數是似然函數的從屬。當似然性出錯時，貝葉斯推論也將如此。”

我對其他堆疊者的疑問是：關於這個特定示例，出了什麼問題（如果貝葉斯方法）

PS正如Wasserman教授在回答中所解釋的那樣，該示例歸因於Ed George。

這個例子聽起來像是進行數值積分的一種奇怪的無效方法，而不像任何貝葉斯分析那樣。

你怎麼能說貝葉斯學不上$ c $。如果是這種情況，我們將有$ \ pi（c | x）\ propto \ pi（c）$。顯然不是。

我不太了解這個例子。如果$ g（）$不依賴於$ c $，那麼數據不具有信息性就不足為奇了，因為$ c $僅依賴於$ g（）$的形式，並且與$ any $樣本相同？我顯然缺少一些微妙的（或不是那麼微妙的）要點。

我構想出一種正式的貝葉斯方法，可以克服@Zen's的反對意見，不禁忌西安的興趣不足，最終只能評估數值積分的準確性。

在Larry的博客上進行了很好的跟進：http://normaldeviate.wordpress.com/2012/10/05/the-normalizing-constant-paradox/

八答案:

Chris Sims

2012-10-02 07:13:05 UTC

view on stackexchange narkive permalink

我的論文（僅在互聯網上發表）“關於拉里·瓦瑟曼的例子” [ 1]以及我，瓦瑟曼，羅賓斯和其他一些人之間的博客交流中對此進行了討論。 Wasserman博客上的評論者：[ 2]

簡短的回答是，Wasserman（和羅賓斯）通過暗示高維空間中的先驗“必須”具有暗示以下兩者的特徵而產生悖論：先驗先驗地確定感興趣的參數，或者先驗先知不存在明顯相關的問題（選擇偏差）。實際上，明智的先驗將不具有這些特徵。我正在寫一篇總結性博客文章以將其匯總。 2007年有一篇出色的論文，其中顯示了Hameling和Toussaint提出的Wasserman和Ritov考慮的明智貝葉斯方法：“ Robins-Ritov問題的貝葉斯估計器” [ 3]

Sims教授，謝謝您的貢獻。你同意我的回答嗎？附言現在，我們在SE上發布了諾貝爾獎。那個怎麼樣？ http://www.nobelprize.org/nobel_prizes/economics/laureates/2011/sims.html

@ChrisSims Sims教授感謝您的來信，並用您非常權威的回答吹走了我的答案！

我對這個答案的投票總數最高（截至目前）感到震驚。正如Wasserman教授指出的那樣，Sims教授的答案與禪宗提出的難題完全不同。我推斷出，大多數人在沒有閱讀和理解Sims提供的鏈接的情況下投票了。

青色，您可以在Link [1]，WassermanComment.pdf，第23頁中找到Sim教授對此難題的評論。第十節第七節。後記2。

Xi'an

2012-10-02 11:08:46 UTC

view on stackexchange narkive permalink

在這個示例中，我認為沒有什麼吸引力。作為對貝葉斯和似然袋鼠的潛在批評。...常數$ c $是已知的，等於$$ 1 \ big / \ int_ \ mathcal {X} g（x）\ text {d} x $$ If給定樣本$ x_1，\ ldots，x_n $，$ c $是圖片中唯一的“未知”對象，因此沒有關於該問題的統計信息，我也不同意存在 estimators $ c $。 $ c $上的 prior 也不行（上述值的狄拉克質量除外）。這至少不是一個統計問題，而是一個數字問題。

可以通過（頻繁）密度估計使用樣本$ x_1，\ ldots，x_n $來提供$ c $的數值近似值，這僅僅是出於好奇。不批評其他統計方法：我還可以使用貝葉斯密度估計...

如果可能性是真實的條件密度，則不可能以適當的先驗開始並以不正確的後驗結束！

如何定義未知常數和參數之間的差異？在《概率概論》中，de Finetti考慮了以$ \ pi $引起不確定性。 de Finetti會考慮將$ c $與$ \ pi $區別嗎？如果不是這樣，觀察數據$ X_1，X_2，\ ldots，X_n $會改變不確定度$ c $嗎？還有關於未知常數/參數的問題。假設Alice選擇一個常數$ c $並輸入$ R $，$ x = rnorm（100，c，1）$。儘管$ c $是一個未知常數，Bob可以用$ c $得出其先驗知識，並使用$ x $來了解$ c $。為什麼$ c $在Wasserman的例子中與眾不同？

我不是de Finetti，所以我不能為他回答！

您的示例是統計數據：我得到的觀測值的基本分佈受未知參數_c_約束。拉里（或埃德（Ed）！）的例子是“不統計”的：樣本的分佈是完全已知的，並且不受未知參數_c_的驅動。 [Zen的答案]（http://stats.stackexchange.com/a/38432/7224）進一步說明了這一點：您根本無法寫$ f（x_1，\ ldots，x_n | c）$而不以悖論結尾，因為只有一個可能的c值。

Larry Wasserman

2012-10-02 18:23:58 UTC

view on stackexchange narkive permalink

我同意這個例子很奇怪。我的意思是說這確實是一個難題。（這個例子實際上是由於Ed George。）

它的確提出了一個問題，即對某事被“知道”。基督徒說$ c $是已知的。但是，至少從純粹的主觀概率的角度來看，您並不知道它只是因為原則上可以知道。（假設您無法進行數值積分。）主觀貝葉斯將所有事物視為具有分佈的隨機變量，包括$ c $。

無論如何，論文

A。 Kong，P.McCullagh，X.-L. Meng，D。Nicolae和Z. Tan（2003），蒙特卡洛積分的統計模型理論， J。皇家統計。 Soc。 B ，第一卷65，不。 3，585–604

（經討論）基本上解決了相同的問題。

克里斯·西姆斯（Chris Sims）在他的答案中所提到的例子具有非常不同的性質。

瓦瑟曼教授（Wasserman Professor）謝謝您來講解您的範例及其歷史。我是斯坦福大學的研究生，與埃德·喬治（Ed George）重疊。斯坦福大學統計部當時不是貝葉斯主義者，儘管在埃弗隆和斯坦因的支持下，我們處於經驗貝葉斯的邊緣。不過，該部門非常開放，丹尼斯·林德利（Dennis Lindley）在貝葉斯統計學中開設了研究生課程，而這個課程我是一個暑假。埃德以某種方式轉變為成熟的貝葉斯主義者，甚至撰寫了關於吉布斯假人抽樣的論文（儘管當然沒有該標題）。

我擁有並喜歡閱讀您的小書“全部統計”和“全部非參數”。

也許不是巧合，我由Kong等人討論了這篇論文。（2003年），對於在度量而非分配上使用組轉換的效率大多持負面態度。最近，小李使我對論文有了更積極的認識。

“假設您不能進行數值積分。”我知道，儘管付出了很大的努力，但邏輯不確定性（這只是一個例子）已使分析難以進行。

按照同樣的邏輯，$ c $是未知的，因為您無法計算它，我想您還必須得出結論，函數$ g $是“未知的”，並將其存在的函數空間放在先驗位置。您“知道” $ g（x_1）$，$ g（x_2）$，...，因為您可以評估$ g $，但是從功能分析的角度來看，我主張您不“知道”什麼是功能，除非您可以針對雙重空間的任何元素（例如集成功能）對其進行測試。

Zen

2012-10-02 05:38:08 UTC

view on stackexchange narkive permalink

提議的統計模型可以描述如下：您有一個已知個非負可積函數$ g：\ mathbb {R} \ to \ mathbb {R} $，以及一個非負隨機變量$ C $。假定$ C = c $，且條件密度$ f_ {X_i \ mid C}（x_i \ mid c）= c \，則假定隨機變量$ X_1，\ dots，X_n $是條件獨立且相同分佈的， g（x_i）$，代表$ c>0 $。

不幸的是，通常，這不是對統計模型的有效描述。問題是，根據定義，$ f_ {X_i \ mid C}（\，\ cdot \ mid c）$ 必須是幾乎每個$ c $可能值的概率密度。，一般來說，顯然是假的。實際上，僅對於單個值$ c = \ left（\ int _ {-\ infty} ^ \ infty g（x）\，dx \ right）^ {-1} $是正確的。因此，只有在瑣碎的情況下，當$ C $的分佈集中在該特定值時，才能正確指定模型。當然，我們對這種情況不感興趣。我們想要的是由Lebesgue度量控制的$ C $的分佈，並具有一個很好的pdf $ \ pi $。

因此，定義了$ x =（x_1，\ dots，x_n）$， expression $$ L_x（c）= \ prod_ {i = 1} ^ n \ left（c \，g（x_i）\ right）\，，$$作為$ c $的函數，對於固定的$ x $，並不對應於真正的似然函數。

此後的一切都繼承自這個問題。特別地，用貝葉斯定理計算的後驗是偽的。很容易看到：假設您有適當個先前的$$ \ pi（c）= \ frac {1} {c ^ 2} \，I _ {[1，\ infty）}（ c）\，。$$注意$ \ int_0 ^ \ infty \ pi（c）\，dc = 1 $。根據示例中顯示的計算，後驗應該是$$ \ pi（c \ mid x）\ propto \ frac {1} {c ^ {2-n}} \，I _ {[1，\ infty）} （c）\，。$$，但是如果這是對的，則此後驗將始終是不合適的，因為$$ \ int_0 ^ \ infty \ frac {1} {c ^ {2-n}} \，I _ {[1， \ infty）}（c）\，dc $$對每個樣本大小$ n \ geq 1 $都不同。

這是不可能的：我們知道，如果我們以適當的先驗開始，則後驗對於每個可能的樣本都不會不合適（在一組無效的先驗預測概率內可能是不合適的）。

很抱歉，沒有人對您的回答發表評論。我想您可能有一點，但我有些困惑。當然，您可以將有效的先驗分佈放在正實數上。如果g為非負數且在R $ ^ + $上具有有限積分，為什麼不能為每個c> 0定義概率密度f？

嗨，邁克爾。當然可以：Gamma，對數正態等，等等。我不知道這與答案有何關係。可能我不明白您的意思。

好吧，我很難理解你的論點。您說f的條件密度僅存在一個c，但事實並非如此。我不知道為什麼這種可能性的表達式是無效的，以及如何通過假設適當的先驗以及以某種方式表明它導致不正確的後驗分佈來通過矛盾得到證明。

在我看來，問題的癥結在於數據實際上與c無關，並且不包含有關c的信息。我認為您可以說存在一個涉及c的似然函數，但是這種可能性不能作為c的函數最大化。對於c的每種選擇，我認為都有一個f = cg。

我不是在與您爭論，我只是想弄清楚您的主張的有效性並理解您的論點。到目前為止，它似乎是手工繪製的。也許只是我想念一些東西。我了解您的矛盾證明可能會起作用，但是要優先考慮（我們提到過幾次），您如何才能獲得不適當的後驗？為什麼這個問題引起了？

得到它了。感謝您將其添加到您的答案中。為此，我給你+1。我認為這是查看問題出在哪裡的一種不錯的替代方法。我也喜歡我的論點。我不明白為什麼Wasserman談到無法直接集成g。我也認為，僅從常人的觀點來看，數據沒有提供有關c的信息，並且c的最大似然估計不可能存在。

我想看看Sims的著作，因為我不確定他是否解決了可能性不當的問題。也許不使用貝葉斯方法處理問題的更簡單方法就是說，對於每個c> 1，可能性會隨著樣本大小n增加到無窮大而爆發，這是不應該發生的。

我已經檢查了Sims教授的論文，重點關注的是Wasserman所著書中緊接該示例之前的示例，該示例在文獻中被稱為Robins-Ritov悖論。 Sims教授在文章結尾處提到了我們一直在討論的示例（請看一下他的“ Postscript 2”）。

任何適當的先驗都可以，在您的示例中也可以。我同意這是顯示問題的有用方法。我的想法更多是先驗不是基於$ g（。）$的知識。因為您知道$ g（。）$，所以此信息僅*一個*先驗。這是狄拉克三角洲函數$ p（c | g（。））= \ delta（c- \ int_ {0} ^ {\ infty} g（x）dx）$。在邏輯上不正確地使用任何其他先驗。有點像說$ p（Z | XY）\ proto p（Z | X）$，當$ Y $與給定$ X $的$ Z $不獨立

我對此的想法與Zens非常相似，只是我認為您無需介紹先驗知識。問題中給出的可能性僅是c的一個特定值的歸一化分佈。如果您想將其用作我們對c值的信念的分佈，則可以通過乘以歸一化的常數$ k $來對其重新歸一化。但是，在那種情況下，後驗有兩個乘法常數$ k $和$ c $，而且在不知道$ k $的情況下，數據不可能告訴您$ c $。正如Zen所說，問題在於可能性無法解釋為歸一化pdf。

Michael R. Chernick

2012-10-02 02:37:39 UTC

view on stackexchange narkive permalink

這個例子有點古怪和人為。可能性出現錯誤的原因是因為g是已知函數。唯一未知的參數是c，它不是可能性的一部分。另外，由於已知g，因此數據不提供有關f的信息。您何時在實踐中看到這樣的事情？因此，後驗與先驗成正比，關於c的所有信息都在先驗。

好的，請考慮一下。頻繁使用者使用最大可能性，因此，頻繁使用者有時也依賴於可能性函數。好吧，常客可以用您可能會說的其他方式估算參數。但是這個成熟的問題只有一個參數c，並且關於c的數據中沒有信息。由於g是已知的，因此不存在與可以從數據周期中收集的未知參數有關的統計問題。

謝謝邁克爾。奇怪的情況，不是嗎？ Wasserman教授提出了以下估算$ c $的方法：採用密度$ f $的任何（頻繁）一致的估算器$ \ hat {f} $（例如，某種內核估算器）。選擇任意點$ x $，並註意$ \ hat {c} = \ hat {f}（x）/ g（x）$是$ c $的一致估計量。

@Zen好，讓我們舉個例子。為什麼要收集所有數據？我們知道g。因此，我們可以對它進行數值積分，從而將c確定為所需的任意精度，而無需進行任何估算！假設我們無法計算c，這意味著即使我們知道g是x的函數，也無法對其進行積分！我認為他的榜樣很虛弱，論點也很弱，而且我一般都喜歡他的書。

David Rohde

2012-10-03 09:28:34 UTC

view on stackexchange narkive permalink

具有諷刺意味的是，進行貝葉斯計算的標準方法是使用MCMC樣本的頻繁分析。在此示例中，我們可能會認為$ c $與我們要計算的邊際可能性密切相關，但是從試圖嘗試也以貝葉斯方式進行計算的意義上，我們將成為貝葉斯純粹主義者。 / p>

這並不常見，但是可以在貝葉斯框架中進行此積分。這包括在函數$ g（）$（實際上是高斯過程）上放置先驗值，以在某些點上評估函數，以這些點為條件，併計算$ g（）$後面的積分。在這種情況下，可能性包括在多個點上評估$ g（）$，但是否則$ g（）$未知，因此，可能性與上述給出的可能性完全不同。該方法已在本文中進行了演示 http://mlg.eng.cam.ac.uk/zoubin/papers/RasGha03.pdf

我認為沒有任何問題貝葉斯方法。書面可能性將$ g（）$視為無處不在。如果真是這樣，那麼這個問題將沒有統計方面。如果假定$ g（）$未知，那麼在有限的點上，貝葉斯方法就可以了。

感到驚訝的是沒有更多的讚譽。這成為問題的核心，這是一個模糊的斷言，即您“知道”一個函數是什麼，因為您可以隨時對其進行評估。我認為說“知道”一個函數的更合適標準是評估函數上任何連續線性函數的能力。

@Nick Alger:人們對likley失去了興趣。我不贊成，因為我不相信它是貝葉斯-集合D（x.i，f（x.i））中的x.i是指研究中觀察到的x.i還是由他們隨機生成的x.i？如果是第一個，那就是貝葉斯，但是很容易用幾秒鐘的計算時間（因此無法正常工作）用簡單的MC擊敗，或者不是貝葉斯（沒有數據條件）。

phaneron

2012-10-25 17:59:33 UTC

view on stackexchange narkive permalink

我們可以擴展可能的 knowns 的定義（類似於數據的擴展，以允許丟失但丟失的數據的數據）以包含NULL（否數據生成）。

假設您有適當個先前的$$ \ pi（c）= \ frac {1} {c ^ 2} \，I _ {[1，\ infty）} （c）\，。$$ Now為x定義數據模型

如果$ c = \ left（\ int _ {-\ infty} ^ \ infty g（x）\，dx \ right）^ {-1} $

$ f_ {X_a \ mid C}（x_a \ mid c）f_ {X_i \ mid C}（x_i \ mid c）= c \，1 g（x_i）$ { a for any}

否則$ f_a {X_a \ mid C}（x_a \ mid c）= 0 $

所以後驗將是0或1（適當），但是可能性

因此您需要進行ABC。

從上述數據模型中提取一個“ c”。（因為您無法確定數據模型中所需的條件。）

現在通過一些數值積分來近似$ \ left（\ int _ {-\ infty} ^ \ infty g（x）\，dx \ right）^ {-1} $並保持“ c”近似-“ c” < epsilon。

保留的“ c”將是真實後驗的近似值。

（近似值的準確性取決於epsilon以及對該近似值進行條件調整的充分性。）

confused

2012-10-02 04:17:52 UTC

view on stackexchange narkive permalink

等等，什麼？您有$$ \ pi（c | x）= \ left（\ Pi_i g（x_i）\ right）\ cdot c ^ n \ pi（c）\ ,, $$，所以它確實取決於$ \ {的值x_i \} $。僅僅因為您將依賴項隱藏在“ $ \ propto $”中並不意味著您可以忽略它？

親愛的困惑：上面的等式是錯誤的。分母在哪裡（$ x $的邊際可能性）？除以$ \ int f（x \ mid c）\，\ pi（c）\，dc $，您會看到$ \ prod_ {i = 1} ^ n g（x_i）$將被抵消。由於其他原因，書中的“後驗”是錯誤的。請檢查我的答案。

ⓘ

該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到，我們感謝它分發的cc by-sa 3.0許可。

关于 - 法律

Loading...