“所有模型都是錯誤的，但有些模型是有用的”的含義是什麼

題:

gpuguy

2013-04-27 13:39:59 UTC

view on stackexchange narkive permalink

“從本質上講，所有模型都是錯誤的，但有些模型是有用的。”

--- Box，George E. P. Norman R.Draper（1987）。經驗模型構建和響應面，第2頁。 424，威利。 ISBN 0471810339。

以上短語的確切含義是什麼？

在同一本書上曾提到過：`記住所有模型都是錯誤的；實際的問題是，它們必須是多麼錯誤才能變得無用。也許這會更有幫助。

十四答案:

Peter Flom

2013-04-27 15:25:10 UTC

view on stackexchange narkive permalink

我認為最好通過分為兩個部分來分析其含義：

“所有模型都是錯誤的”，也就是說，每個模型都是錯誤的，因為它是對現實的簡化。一些模型，特別是在“硬”科學中，只是有點錯誤。他們忽略了摩擦或微小物體的引力作用之類的東西。其他模型有很多錯誤-他們忽略了更大的事情。在社會科學中，我們忽略了很多。

“但是有些有用”-簡化現實非常有用。它們可以幫助我們解釋，預測和理解宇宙及其所有組成部分。

這不僅在統計數據中是正確的！地圖是一種模型。他們錯了。但是好的地圖非常有用。其他有用但錯誤的模型的例子比比皆是。

+1因為我喜歡這些地圖的類比。我以後會用！

@Peter Flom即使我喜歡這個比喻

“強硬”科學中的許多模型也相距甚遠（昨天我參加了一個研討會，在該研討會上，模型位於誤差線之內，但誤差線為兩個數量級）。

+1。我認為您的關鍵詞是“每個模型都是錯誤的，因為它是對現實的簡化”。人們經常忘記這一點-例如在對經濟學的幼稚批評中（我有我自己的批評，但他們不僅要比“現實比您的模型更複雜”，還要要更加複雜）。如果我們不簡化它，那麼您將擁有原始現實，這對我們來說太複雜了。因此，我們必須簡化它以獲得任何見解。

比例為1：1的完美地圖的幻想已被許多作者使用，包括Lewis Carroll，Jorge Luis Borges和Umberto Eco。實際上，這沒有用，因為它所映射的區域必然很複雜，而且不容易理解（更不用說將其展開並佈置為讀取的尷尬）。

確實。正是博爾赫斯的故事使我有了類比的想法。

也許您還可以添加一個模型*有點*錯誤，因為否則它將無法泛化，因此不適用於其他地方。有一些答案說明了這一點。但是現在有太多的答案無法全部閱讀。

“所有模型都是錯誤的”總是讓我想起馬格利特的《叛國罪》（又名“這不是煙斗”）。

usεr11852

2013-04-27 14:06:11 UTC

view on stackexchange narkive permalink

這意味著可以從模型中提供有用的見解，而這些模型並不能完美地表示它們所建模的現象。

統計模型是對使用數學概念的系統的描述。因此，在許多情況下，您需要添加特定的抽象層以簡化推理過程（例如，測量誤差的正態性，相關結構中的複合對稱性等）。考慮到我們對世界有一個主觀的看法（我們的感覺系統並不完美），單個模型完美地描述現實世界的現象幾乎是不可能的。但是，由於我們的世界確實具有一定程度的一致性，因此確實可以進行成功的統計推斷。因此，我們的幾乎總是錯誤的模型確實證明了有用。

（我敢肯定，您很快就會得到一個大膽的答案，但我試圖做到簡潔在這個上！）

我們能否說這些有用的模型提供了近似的解決方案？

@gpuguy:當然可以。引用約翰·圖基（John Tukey）的話：“對正確問題的近似答案比對近似問題的精確答案更有價值。”（我實際上是J.T.的引人入勝的見解。）

“對於正確的問題（通常是模糊的），比對錯誤的問題（總是可以精確的）給出精確的答案要好得多。” John W. Tukey 1962數據分析的未來。《數學統計年鑑》 33：1-67（請參閱第13-14頁）毫無疑問，他在其他時候也說過類似的話，但這是通常的消息來源。

我從原始出版物中復制了我的。

Dimitriy V. Masterov

2013-05-23 04:30:13 UTC

view on stackexchange narkive permalink

我發現Thad Tarpey的 2009 JSA談話提供了關於Box段落的有用解釋和評論。他認為，如果我們將模型視為真實情況的近似值，我們就可以很容易地將所有模型稱為正確。

以下是摘要：喬治·喬治（George Box）的名言：“所有模型都是錯誤的，有些模型是有用的。”在本次演講中，我認為這句話雖然有用，但卻是錯誤的。另一種更積極的觀點是承認模型只是從數據中提取感興趣信息的一種手段。事實是無限複雜的，模型只是事實的近似。如果近似值不佳或具有誤導性，則該模型將無用。在本次演講中，我將舉例說明不是真實模型的正確模型。我說明了“錯誤”模型的概念如何導致錯誤的結論。

Tavrock

2017-03-13 18:56:25 UTC

view on stackexchange narkive permalink

因為沒有人添加它，所以喬治·博克斯使用引用的階段在書中介紹以下部分。我相信他在解釋他的意思方面做得最好：

現在，如果可以用任何簡單的模型精確地表示現實世界中存在的任何系統，那將是非常了不起的。但是，精明選擇的簡約模型通常確實提供了非常有用的近似值。例如，關於壓力 $ P $ span>的法律 $ PV = RT $ span>，體積>理想氣體的溫度 $ T $ span> $ R $ span>並不完全適用於任何真實的氣體，但它經常提供有用的近似值，而且其結構具有參考價值，因為它是從氣體分子行為的物理角度出發的。

對於這樣的模型，無需詢問“模型是否正確？”的問題。如果將“真相”作為“整體真理”，則答案必須是“否”。唯一感興趣的問題是“模型是否具有啟發性並且有用？”。

Box，GE.P。（1979），“科學模型構建策略中的穩健性”，位於勞納，勞倫斯；威爾金森（G. N. N.），《統計的穩健性》（emem），學術出版社，第201–236頁。

user12719

2013-05-19 07:57:07 UTC

view on stackexchange narkive permalink

對我來說，真正的見解在於以下方面：

模型不一定非要正確才有用。

不幸的是，許多科學經常會忘記，模型不一定必須是現實的精確表示即可允許新的發現和預測！

因此，不要浪費您的時間來構建複雜的模型，該模型需要精確地測量無數的變量。真正的天才發明了一個簡單的模型來完成任務。

David Burton

2013-05-23 04:20:02 UTC

view on stackexchange narkive permalink

如果結果中存在任何隨機性，則模型無法提供100％準確的預測。如果沒有不確定性，沒有隨機性並且沒有錯誤，那麼它將被視為事實而不是模型。第一個非常重要，因為模型經常用於對未發生事件的期望進行建模。這幾乎保證了真實事件的不確定性。

給出完美的信息，從理論上講，有可能創建一個模型，為此類精確已知的事件提供完美的預測。但是，即使在這些不太可能的情況下，這樣的模型也可能是如此復雜以至於無法在計算上使用，並且可能僅在特定的時間點是準確的，因為其他因素會改變值隨事件的變化。

由於大多數現實世界數據中都存在不確定性和隨機性，因此獲得完美模型的努力是徒勞的。取而代之的是，著眼於獲得足夠準確的模型，該模型應足夠簡單以就其使用所需的數據和計算而言都可以使用。雖然這些模型不完善，但其中一些缺陷是眾所周知的，可以考慮基於這些模型進行決策。

簡單的模型可能並不完美，但它們也更易於推理，以便彼此比較，並且可能更易於使用，因為它們的計算需求可能較小。

Tim

2015-12-10 14:12:46 UTC

view on stackexchange narkive permalink

如果可以的話，可能只會有用一句話。我更喜歡的版本是

（...），所有模型都是近似值。從本質上講，所有模型都是錯誤的，但是一些有用的（...）

取自Box and Draper（2007年）的響應面，混合物和Ridge分析 ，第414頁，威利）。查看擴展引文，可以更清楚地看到Box的含義-統計建模是關於逼近的事實，逼近從來都不是精確的，因此它是關於找到最合適的逼近。適合您目的的是一個主觀的東西，這就是為什麼它不是有用的模型之一，而其中的 some 可能有用，取決於建模的目的。

bright-star

2013-04-27 15:06:35 UTC

view on stackexchange narkive permalink

您可能會這樣想。對象的最大復雜度（即熵）服從某種形式的 Bekenstein界：

$$ I \ le \ frac {2 \ pi RE} {\ hbar c \ ln 2} $$

其中$ E $是包括質量的總靜止能量，$ R $是包圍對象的球體的半徑。

數字，在大多數情況下：

對於一個普通的人腦來說，本肯斯坦約束範圍是$ 2.58991·10 ^ {42} $位，代表該信息的上限完美地重建人類的大腦，直至達到量子水平。這意味著人腦的不同狀態（$Ω= 2 ^ I $）的數量（以及如果物理性是正確的，則為頭腦）最多為$ 107.79640·10 ^ {41} $。 blockquote>
那麼，您是否要對每個單元中所有粒子的所有波動方程使用“最佳圖”（即區域本身）？絕對不。這不僅會造成計算災難，而且還會建模與您關心的事物本質上無關的事物。例如，如果您只想確定我是否醒著，則無需知道＃32458神經元＃844030核醣體＃2305分子＃2中的電子在做什麼。如果您沒有對此建模，那麼您的模型確實是“錯誤的”，但是如果您可以確定我是否醒著，那麼您的模型肯定會有用。

Thomas Speidel

2013-05-22 01:33:13 UTC

view on stackexchange narkive permalink

我認為Peter和user11852提供了很好的答案。我還要補充一點（否定），如果一個模型真的很好，那麼由於過度擬合（因此，不能推廣），它可能就沒用了。

+1為過擬合點。即使您知道基礎模型不正確（例如垃圾郵件過濾），Naive Bayes和線性判別分析等算法通常也可以很好地工作，這僅僅是因為估計參數所需的數據較少。

H2SO4

2013-04-27 15:19:21 UTC

view on stackexchange narkive permalink

我對酸的解釋是：相信一個數學模型可以準確地描述所有因素及其相互作用，從而控制一種感興趣的現象將過於簡單和傲慢。我們甚至不知道我們使用的邏輯是否足以理解我們的宇宙。但是，一些數學模型（就科學方法而言）代表了足夠好的近似值，可用於得出有關這種現象的結論。

Eric Feigelson

2013-05-25 23:24:13 UTC

view on stackexchange narkive permalink

作為一個天文統計學家（也許是一個稀有品種），我發現Box的教義的名聲很不幸。在物理科學中，我們通常對理解觀察到的現象的過程有著強烈的共識，並且這些過程通常可以由引力定律，量子力學，熱力學等所產生的數學模型來表示。統計目標是為了估計最適合的模型參數的物理屬性，以及模型的選擇和驗證。 2013年3月，歐洲航天局 Planck衛星測量宇宙微波背景的論文發表了一個令人矚目的近期案例，該論文令人信服地為大爆炸建立了簡單的6參數“ LambdaCDM”模型。我懷疑Box的格言是否會適用於這29篇論文中使用的廣泛的高級統計方法中的任何地方。

Srinath

2014-05-29 23:44:38 UTC

view on stackexchange narkive permalink

我剛剛通過將流程模型作為重點來表述了以上答案。該語句可以解釋為：

“所有模型都是錯誤的”，也就是說，每個模型都是錯誤的，因為它是對現實的簡化。有些型號只是有點錯誤。他們忽略了一些事情，例如：->更改需求，->在截止日期之前忽略項目的完成，->沒有考慮客戶期望的質量水平等...其他模型有很多錯誤-他們忽略了更大的東西。與敏捷過程模型相比，傳統軟件過程模型忽略了很多，而敏捷過程模型卻忽略了很多。

“但是有些有用”-簡化現實非常有用。他們可以幫助我們解釋，預測和理解整個項目及其所有組成部分。之所以使用模型，是因為它們的功能與大多數軟件開發程序相對應。

ziggystar

2014-05-05 13:34:22 UTC

view on stackexchange narkive permalink

我想對“有用”一詞作另一種解釋。可能不是一個Box想到的。

當您必須做出決策時，這是所有信息最終都將用於的目的，那麼您就必須以某種形式衡量您的成功。在討論具有不確定信息的決策時，這種度量通常稱為效用。

因此，我們也可以將有用模型視為可以使我們做出更明智的決策的模型。以便更有效地實現我們的目標。

這在通常的標準之上又增加了另一個維度，例如模型正確預測某些事物的能力：它使我們能夠權衡模型涉及的各個方面其他。

Jan

2016-11-15 20:40:40 UTC

view on stackexchange narkive permalink

“所有模型都是錯誤的，但有些是有用的”。也許這意味著：我們應該利用我們所知道的+尋求新的知識來竭盡所能？

（-1）您能否提供任何建議暗示G.E.P.盒子是什麼意思？從其他答案中可以發現，他的意思完全不同。

OP可能正在接受報價並給予新的解釋。我同意Tim的觀點，Box或多或少都說不要將模型作為對現實的精確解釋，但要認識到某些模型可以很好地描述數據。

ⓘ

該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到，我們感謝它分發的cc by-sa 3.0許可。

关于 - 法律