題:
“內生性”和“外生性”實質上是什麼意思?
user25901
2013-05-21 11:22:23 UTC
view on stackexchange narkive permalink

我了解內生性的基本定義是不滿足$$ X'\ epsilon = 0 $$,但這在現實世界中意味著什麼?我閱讀了有關供需示例的Wikipedia文章,試圖理解這一點,但這並沒有真正的幫助。我聽說過關於內生性和外生性的另一種描述,即在系統內部和在系統外部,這對我來說仍然沒有意義。

以下所有三個答案都非常好(每個答案+1)。如果您需要其他信息來源,請在這裡討論此主題:[估計$ b_1x_1 + b_2x_2 $而不是$ b_1x_1 + b_2x_2 + b_3x_3 $](http://stats.stackexchange.com/questions/58709//58712#58712 ),並用“ R”中的模擬進行說明。
當具有內生性時,您的回歸將不再具有可用的估計量或檢驗統計量。
我同意@gung,的觀點,並想強調,完整的答案將涉及“可用於*目的*”?上述許多答案都很好地解決了這個問題。
-1
@whuber我不知道,它太短了,我無法真正分辨。但是,例如,我在想,即使您具有內生性,估計的模型也可以用於預測(或只是關聯),因此,如果沒有澄清,“不再有可用的估計器”似乎是錯誤的。
@Matthew:足夠公平;這是有益和建設性的批評。
對於術語,答案在技術上也不正確。估算器(我假設Ivan在這裡談論OLS)和測試統計信息在它們正在起作用的意義上仍然“可用”,即可以應用。您不會得到的是某個總體參數的無偏估計(!)-如Matthew所指出的,如果您要尋找任何這樣的參數開始。
這不能為問題提供答案。要批評或要求作者澄清,請在其帖子下方發表評論。-[評論](/ review / low-quality-posts / 115391)
五 答案:
Bill
2013-05-21 20:38:20 UTC
view on stackexchange narkive permalink

JohnRos的回答非常好。用簡單的英語來說,內生性意味著您弄錯了因果關係。您寫下並估計的模型不能正確反映因果關係在現實世界中的工作方式。當您編寫:

\ begin {equation} Y_i = \ beta_0 + \ beta_1X_i + \ epsilon_i \ end {equation}

時,您可以通過多種方式來考慮此方程。您可以將其視為根據$ X $的值預測$ Y $的便捷方法。您可以將其視為對$ E \ {Y | X \} $建模的便捷方法。在這兩種情況下,都不存在內生性,您不必擔心。

但是,您也可以將方程式視為因果關係。您可以將$ \ beta_1 $視為以下問題的答案:“如果我進入此系統並以實驗方式將$ X $增加1,那麼$ Y $會發生什麼?”如果要這樣考慮,使用OLS進行估算就等於:

  1. $ X $導致$ Y $
  2. $ \ epsilon $導致$ Y $
  3. $ \ epsilon $不會導致$ X $
  4. $ Y $不會導致$ X $
  5. 也不會導致$ \ epsilon $的情況導致$ X $
  6. ol>

    如果3-5中的任何一項失敗,通常會導致$ E \ {\ epsilon | X \} \ ne0 $,或者不是相當等同的$ {\ rm Cov}(X,\ epsilon)\ ne0 $。工具變量是一種糾正因果關係錯誤的事實的方式(通過做出另一個不同的因果假設)。完善進行的隨機對照試驗是強迫 b> 3-5成為現實的一種方法。如果您隨機選擇$ X $,那麼它肯定不是由$ Y $,$ \ epsilon $或其他任何原因引起的。所謂的“自然實驗”方法是嘗試在世界上找到3-5成立的特殊情況,即使我們認為3-5通常都不成立。

    在JohnRos的示例中,要計算教育的工資價值,您需要對\\ beta_1 $進行因果解釋,但是有充分的理由相信3或5是錯誤的。

    您的困惑是可以理解的。在線性模型課程中,非常典型的是,教師使用我在上面給出的$ \ beta_1 $的因果解釋,同時假裝不引入因果關係,並假裝“全是統計數據”。這是一個怯ward的謊言,但也很普遍。

    實際上,它是生物醫學和社會科學中更大現象的一部分。我們試圖確定$ X $對$ Y $的因果關係幾乎總是這樣,這畢竟是科學。另一方面,幾乎總是有這樣的情況,您可以講一些故事,從而得出結論:3-5中的一個是錯誤的。因此,存在一種實踐的,模糊的,模棱兩可的不誠實行為,在這種行為中,我們通過說我們只是在做聯想工作,然後將因果解釋偷偷帶回其他地方(通常在本文的引言和結論部分)來消除異議。

    如果您真的有興趣,可以閱讀的人是 Judea Perl。 James Heckman也很好。

+1很棒的解釋和評論。歡迎來到我們的網站!
您能否說出您推薦的Heckman作品,以獲得對這個問題的基本而紮實的理解?
我有一個問題:“如何使用手頭的數據(而不是您的領域知識)來檢查$ E [\ epsilon | X] = 0 $或$ E [\ epsilon X] = 0 $是否正確”來自實驗,即觀察數據集”?我覺得沒有辦法測試$ E [\ epsilon | X] = 0 $或$ E [\ epsilon X] = 0 $只使用數據,因為$ \ epsilon $是不可觀察的,那麼內生性是真的嗎無法使用數據進行測試?
@KevinKim是的。$ E \ {\ epsilon | X \} = 0 $無法使用統計數據進行測試。$ \ epsilon $不能被恢復/估計,除非進行估計然後進行殘差處理。恢復只能在估算之後進行。只有正確完成估算,恢復才是正確的。僅當$ E \ {\ epsilon | X \} = 0 $時才能正確進行估算。因此,圓形。$ E \ {\ epsilon | X \} = 0 $的信息必須來自實質性的非統計知識。這樣的一個示例是$ Cov \ {X,e \} = 0 $,其中$ e $是OLS殘差。不管$ E \ {\ epsilon | X \} = 0 $,都是如此。
-1
@KevinKim是的。這不僅僅是線性模型。這就是統計數據。請注意,當有人說“相關不是因果關係”時,他們永遠不會繼續告訴您什麼是因果關係。因果關係是理論,只能是理論。甚至(完全-因此從未進行過的)RCT都不會在沒有理論的情況下告訴您因果關係。
JohnRos
2013-05-21 12:35:32 UTC
view on stackexchange narkive permalink

讓我舉個例子:

假設您想量化教育對收入的(因果)影響。您獲取教育年限和收入數據,然後對一個進行回歸。您恢復了想要的東西嗎?可能不會!這是因為收入也是由教育以外的其他原因引起的,但與教育相關。我們稱它們為“技能”:我們可以放心地假設教育年限受“技能”的影響,因為您的技能越強,就越容易獲得教育。因此,如果您將教育年限按收入進行回歸,則教育效果的估算器會吸收“技能”的影響,並且您會過於樂觀地估計​​教育收益。這就是說,教育對收入的影響(向上)是有偏見的,因為教育不是收入的外生因素。僅僅是相關性)。另外-如果您可以設計實驗,則可以通過隨機分配來保證$ {\ rm Cov}(X,\ epsilon)= 0 $。可悲的是,這在社會科學中通常是不可能的。

感謝您的示例和解釋。對於普通英語的內生性和外生性的含義,我仍然一無所知。當我說一個變量是內生的或關於外生的時,我到底是什麼意思。
@ JohnRos您寫了“內生性只是一個問題,如果您想恢復因果關係”,那麼看來我也可以這樣說:“外生性暗示因果關係”……我從沒讀過這個短語……但是,對嗎?如果是正確的話,我認為很多教科書(有時是隱式的)都將因果推論視為正常目標。
@markowitz:每當您推斷回歸係數時,就意味著您需要因果關係。如果只需要預測,則只要預測良好,係數的值就無關緊要。的確,古典教科書並沒有做出這種區分,因為在預測任務之前不是“基礎科學”,而是更多的“工程”(請原諒我的粗略概括)
感謝JohnRos,讓我問另一個有關相關問題的問題。係數的偏估計問題僅在因果回歸模型中才有意義,而對於預測目標則絕對沒有。這是正確的?我問這是因為這一點在任何地方都不清楚。
bearvarine
2014-04-22 00:17:30 UTC
view on stackexchange narkive permalink

User25901正在尋找直接,簡單,真實的解釋,這些術語是外生和內生的意思。用奧秘的例子或數學定義來回答並不能真正回答所提出的問題。

我如何對這兩個術語有個全面的了解?

這是我想出的:

Exo-外部,外部Endo-內部,內部-內部源於

外部:如果變量不是由模型中的其他參數和變量確定,則該變量對模型是外部的

內生:如果變量至少部分是模型中其他參數和變量的函數,則該變量在模型中是內生的。

>
這些是合理的直觀定義,但無需如此無視其他答案。
呼籲詞源可以為*記住*技術術語的含義(對我來說很好)提供一個有用的句柄,但應避免使用詞源*合理化*這些術語。只有仔細研究它們的數學定義,才能正確理解很多術語(在統計數據和其他地方)。理解此答案需要對單詞和短語的預期用途有一個清晰的概念,例如“由...確定”,“在外部設置”,“更改”,“外部力”和“部分[a]功能”,這些都不是立即可用的。明顯的或明確的。
generic_user
2013-05-21 15:27:46 UTC
view on stackexchange narkive permalink

通過構造,OLS回歸給出$ X'\ epsilon = 0 $。其實那是不正確的。它通過構造給出$ X'\ hat \ epsilon = 0 $。您的估計殘差與回歸變量不相關,但是在某種意義上您的估計殘差“錯誤”。

如果真正的數據生成過程由$ Y = \ alpha + \ beta X + \ gamma Z + {\ rm noise} $來操作,並且$ Z $與$ X $相關,則$ X'{\ rm noise} \ neq 0 $(如果您擬合回歸而忽略了$ Z $)。當然,估計的殘差將與$ X $不相關。它們總是一樣,就像$ \ log(e ^ x)= x $。這只是一個數學事實。這是省略的變量偏差。

假設$ I $是隨機分配的。也許是人們出生的一周幾號。也許這是一個實際的實驗。與$ Y $無關的任何事物都可以預測$ X $。然後,您可以使用$ I $的隨機性來預測$ X $,然後使用那個預測的$ X $將模型擬合到$ Y $。

那是兩個階段的最小二乘,與IV幾乎相同。

據我了解,不是2SLS做IV的一種方法,如果我弄錯了,我深表歉意。
2SLS標準錯誤是錯誤的。我忘記了原因或方式,但是如果您搜索“ IV 2SLS標準錯誤”,您可能會找到一些東西。大多數軟件包使用solve(t(z)%*%(x)%*%t(z)%*%y方法實現2sls
2SLS標準錯誤是錯誤的,因為到最後階段的輸入(例如$ \ hat {X} $)不能反映$ X $的實際方差。已更正的SE對此進行了調整。
謝謝。在撰寫本文時,我對應用計量經濟學一無所知。
Amon Magwiro
2015-05-01 23:28:10 UTC
view on stackexchange narkive permalink

在回歸中,我們希望捕獲自變量(我們假設是外生的,而不是自身依賴於其他事物)對已確定的因變量的定量影響。我們想知道外生變量對因變量有什麼淨影響,這意味著自變量應不受其他變量的任何影響。查看回歸是否遭受內生性問題的一種快速方法是檢查自變量與殘差之間的相關性。但這只是一個粗略的檢查,否則需要進行內生性的正式測試。

這不是真的根據構造,殘差與回歸分析的解釋變量之間的相關性為零。這不是內生性的測試。
-1


該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...