我的數據中有一個變量缺少80%的數據。由於不存在(即公司欠多少銀行貸款)而導致數據丟失。我碰到一篇文章,說偽變量調整方法是解決此問題的方法。意味著我需要將此連續變量轉換為分類變量?
這是唯一的解決方案嗎?從理論上講,我不想刪除此變量,這對我的研究問題很重要。
我的數據中有一個變量缺少80%的數據。由於不存在(即公司欠多少銀行貸款)而導致數據丟失。我碰到一篇文章,說偽變量調整方法是解決此問題的方法。意味著我需要將此連續變量轉換為分類變量?
這是唯一的解決方案嗎?從理論上講,我不想刪除此變量,這對我的研究問題很重要。
數據是在未知的意義上“丟失”還是僅表示沒有貸款(因此貸款金額為零)?聽起來像是後者,在這種情況下,您需要一個 additional 二進制虛擬對像以指示是否有貸款。不需要對貸款金額進行任何轉換(也許除了連續重新表達外,例如根目錄或開始的日誌,可以通過其他考慮來表示)。
回歸。一個簡單的示例是以下格式的概念模型:
$$ \ text {因變量(Y)=貸款金額(X)+常數。} $$
貸款指標($ I $),則回歸模型為
$$ Y = \ beta_I I + \ beta_X X + \ beta_0 + \ epsilon $$
,帶有$ \ epsilon $表示期望值為零的隨機錯誤。係數解釋為:
$ \ beta_0 $是無貸款情況下對$ Y $的期望,因為它們的特徵是$ X = 0 $和$ I = 0 $。
$ \ beta_X $是$ Y $相對於貸款金額($ X $)的邊際變化。
$ \ beta_I + \ beta_0 $是案例的截距貸款。
我認為您誤解了本文的建議:主要是因為該建議沒有任何意義。然後,您將遇到兩個問題:如何重新編碼變量,並且變量值仍然丟失。可能的建議是創建一個缺失指標。
一種與鬆散匹配此描述的處理丟失數據的方法有些相關,那就是針對缺失指標進行調整。這當然是一種簡單易行的方法,但總的來說是有偏見的。偏見的弊端是無限的。這實際上是對兩個模型進行擬合併將它們的效果平均在一起:第一個模型是完全條件模型,第二個模型是完全因子模型。完全條件模型是完整的案例模型,其中刪除了每個缺失值的觀察值。因此,它適合20%的數據子集。第二個是對剩餘的80%的擬合,根本不調整缺失值。當沒有不可度量的交互作用,鏈接功能可折疊以及數據隨機丟失(MAR)時,此邊際模型估計的效果與完整模型相同。然後將這些效果通過加權平均值合併。即使在理想條件下,也沒有不可測的相互作用,並且在隨機(MCAR)數據中完全丟失,由於邊緣模型和條件模型估計的效果不同,所以缺少指標方法會導致偏差的產生。在這種情況下,甚至預測都是有偏差的。
更好的選擇是只使用多重插補。即使以非常低的患病率來衡量最缺失的因素,MI仍然可以很好地生成可能值的複雜實現。這裡唯一必要的假設是MAR。