我了解內生性的基本定義是不滿足$$ X'\ epsilon = 0 $$,但這在現實世界中意味著什麼?我閱讀了有關供需示例的Wikipedia文章,試圖理解這一點,但這並沒有真正的幫助。我聽說過關於內生性和外生性的另一種描述,即在系統內部和在系統外部,這對我來說仍然沒有意義。
我了解內生性的基本定義是不滿足$$ X'\ epsilon = 0 $$,但這在現實世界中意味著什麼?我閱讀了有關供需示例的Wikipedia文章,試圖理解這一點,但這並沒有真正的幫助。我聽說過關於內生性和外生性的另一種描述,即在系統內部和在系統外部,這對我來說仍然沒有意義。
JohnRos的回答非常好。用簡單的英語來說,內生性意味著您弄錯了因果關係。您寫下並估計的模型不能正確反映因果關係在現實世界中的工作方式。當您編寫:
\ begin {equation} Y_i = \ beta_0 + \ beta_1X_i + \ epsilon_i \ end {equation}
時,您可以通過多種方式來考慮此方程。您可以將其視為根據$ X $的值預測$ Y $的便捷方法。您可以將其視為對$ E \ {Y | X \} $建模的便捷方法。在這兩種情況下,都不存在內生性,您不必擔心。
但是,您也可以將方程式視為因果關係。您可以將$ \ beta_1 $視為以下問題的答案:“如果我進入此系統並以實驗方式將$ X $增加1,那麼$ Y $會發生什麼?”如果要這樣考慮,使用OLS進行估算就等於:
如果3-5中的任何一項失敗,通常會導致$ E \ {\ epsilon | X \} \ ne0 $,或者不是相當等同的$ {\ rm Cov}(X,\ epsilon)\ ne0 $。工具變量是一種糾正因果關係錯誤的事實的方式(通過做出另一個不同的因果假設)。完善進行的隨機對照試驗是強迫 b> 3-5成為現實的一種方法。如果您隨機選擇$ X $,那麼它肯定不是由$ Y $,$ \ epsilon $或其他任何原因引起的。所謂的“自然實驗”方法是嘗試在世界上找到3-5成立的特殊情況,即使我們認為3-5通常都不成立。
在JohnRos的示例中,要計算教育的工資價值,您需要對\\ beta_1 $進行因果解釋,但是有充分的理由相信3或5是錯誤的。
您的困惑是可以理解的。在線性模型課程中,非常典型的是,教師使用我在上面給出的$ \ beta_1 $的因果解釋,同時假裝不引入因果關係,並假裝“全是統計數據”。這是一個怯ward的謊言,但也很普遍。
實際上,它是生物醫學和社會科學中更大現象的一部分。我們試圖確定$ X $對$ Y $的因果關係幾乎總是這樣,這畢竟是科學。另一方面,幾乎總是有這樣的情況,您可以講一些故事,從而得出結論:3-5中的一個是錯誤的。因此,存在一種實踐的,模糊的,模棱兩可的不誠實行為,在這種行為中,我們通過說我們只是在做聯想工作,然後將因果解釋偷偷帶回其他地方(通常在本文的引言和結論部分)來消除異議。
如果您真的有興趣,可以閱讀的人是 Judea Perl。 James Heckman也很好。
讓我舉個例子:
假設您想量化教育對收入的(因果)影響。您獲取教育年限和收入數據,然後對一個進行回歸。您恢復了想要的東西嗎?可能不會!這是因為收入也是由教育以外的其他原因引起的,但與教育相關。我們稱它們為“技能”:我們可以放心地假設教育年限受“技能”的影響,因為您的技能越強,就越容易獲得教育。因此,如果您將教育年限按收入進行回歸,則教育效果的估算器會吸收“技能”的影響,並且您會過於樂觀地估計教育收益。這就是說,教育對收入的影響(向上)是有偏見的,因為教育不是收入的外生因素。僅僅是相關性)。另外-如果您可以設計實驗,則可以通過隨機分配來保證$ {\ rm Cov}(X,\ epsilon)= 0 $。可悲的是,這在社會科學中通常是不可能的。
User25901正在尋找直接,簡單,真實的解釋,這些術語是外生和內生的意思。用奧秘的例子或數學定義來回答並不能真正回答所提出的問題。
我如何對這兩個術語有個全面的了解?
這是我想出的:
Exo-外部,外部Endo-內部,內部-內部源於
外部:如果變量不是由模型中的其他參數和變量確定,則該變量對模型是外部的
內生:如果變量至少部分是模型中其他參數和變量的函數,則該變量在模型中是內生的。
>通過構造,OLS回歸給出$ X'\ epsilon = 0 $。其實那是不正確的。它通過構造給出$ X'\ hat \ epsilon = 0 $。您的估計殘差與回歸變量不相關,但是在某種意義上您的估計殘差“錯誤”。
如果真正的數據生成過程由$ Y = \ alpha + \ beta X + \ gamma Z + {\ rm noise} $來操作,並且$ Z $與$ X $相關,則$ X'{\ rm noise} \ neq 0 $(如果您擬合回歸而忽略了$ Z $)。當然,估計的殘差將與$ X $不相關。它們總是一樣,就像$ \ log(e ^ x)= x $。這只是一個數學事實。這是省略的變量偏差。
假設$ I $是隨機分配的。也許是人們出生的一周幾號。也許這是一個實際的實驗。與$ Y $無關的任何事物都可以預測$ X $。然後,您可以使用$ I $的隨機性來預測$ X $,然後使用那個預測的$ X $將模型擬合到$ Y $。
那是兩個階段的最小二乘,與IV幾乎相同。
在回歸中,我們希望捕獲自變量(我們假設是外生的,而不是自身依賴於其他事物)對已確定的因變量的定量影響。我們想知道外生變量對因變量有什麼淨影響,這意味著自變量應不受其他變量的任何影響。查看回歸是否遭受內生性問題的一種快速方法是檢查自變量與殘差之間的相關性。但這只是一個粗略的檢查,否則需要進行內生性的正式測試。