題:
單個變量中80%的丟失數據
lcl23
2011-01-26 08:53:22 UTC
view on stackexchange narkive permalink

我的數據中有一個變量缺少80%的數據。由於不存在(即公司欠多少銀行貸款)而導致數據丟失。我碰到一篇文章,說偽變量調整方法是解決此問題的方法。意味著我需要將此連續變量轉換為分類變量?

這是唯一的解決方案嗎?從理論上講,我不想刪除此變量,這對我的研究問題很重要。

二 答案:
whuber
2011-01-26 09:27:01 UTC
view on stackexchange narkive permalink

數據是在未知的意義上“丟失”還是僅表示沒有貸款(因此貸款金額為零)?聽起來像是後者,在這種情況下,您需要一個 additional 二進制虛擬對像以指示是否有貸款。不需要對貸款金額進行任何轉換(也許除了連續重新表達外,例如根目錄或開始的日誌,可以通過其他考慮來表示)。

回歸。一個簡單的示例是以下格式的概念模型:

$$ \ text {因變量(Y)=貸款金額(X)+常數。} $$

貸款指標($ I $),則回歸模型為

$$ Y = \ beta_I I + \ beta_X X + \ beta_0 + \ epsilon $$

,帶有$ \ epsilon $表示期望值為零的隨機錯誤。係數解釋為:

$ \ beta_0 $是無貸款情況下對$ Y $的期望,因為它們的特徵是$ X = 0 $和$ I = 0 $。

$ \ beta_X $是$ Y $相對於貸款金額($ X $)的邊際變化。

$ \ beta_I + \ beta_0 $是案例的截距貸款。

“其他二進制虛擬”,這意味著我需要創建另一個變量,其中1 =帶貸款,0 =無貸款?同時,仍然放入原始的Loan變量嗎?如果是這樣,則80%的案件將被視為失踪,僅剩下20%的案件需要分析。總樣本量的20%對我來說無法進行邏輯回歸。 (抱歉,我仍處於學習階段)
他們不會被視為失踪,他們會估算沒有貸款的價值。也許您沒有借出“ NA”,在這種情況下,您需要將其重新編碼為0。
@John謝謝,這正是我的建議。關鍵是要以任何適當的方式(例如log(amount + 1))表示貸款價值($ X $),並在沒有貸款的情況下設置$ X = 0 $和$ I = 1 $。這是回歸的標準技術,包括邏輯回歸。
謝謝!我明白你的意思。無論如何,插補工作對我來說有用嗎?
-1
嗨,@whuber,,我對應該將值賦給I變量感到困惑;應該是I = I(X == 0)還是I = I(X!= 0)?我在相似的問題中都曾見過,但我不確定其解釋。我在這裡寫的是這兩種情況的一些內容,但我很迷茫,希望您能給我塗上底漆。具體來說,我對在I(X == 0)情況下使用哪個基準以及在I(X!= 0)情況下使用虛假累加效應感到困惑。
-1
如果我的解釋正確,您描述的情況就是I = I(X == 0)情況。在這種情況下,我的疑問是當X = 0時如何解釋係數,因為我了解到當I == 1時您將添加不同的截距。與沒有I虛擬模型的模型比較相比,這不會改變Y的預測值變量? 然後,就像http://stats.stackexchange.com/questions/56306/time-spent-in-an-activity-as-an-independent-variable一樣,我是I(X!= 0)。在這種情況下,$ \ beta_0 $代表什麼?
披露:特別是在我的情況下,我必須處理某些生物標記物的較低檢測限,這會使預測變量看起來為零膨脹。
@Bakaburg我認為您可能已經將其倒退了,但這並不重要-兩種模型(使用$ I(X = 1)$與$ I(X = 0)$)將是等效的。有沒有這樣的指標的模型中的預測值會有所不同,所以我不明白您要問什麼。請注意,“ nondetect”與“不存在”有很大的不同!如果您的檢測極限足夠小,則無需為它們引入虛擬對象。如果有需要,那麼引入一個假人可能有點太粗糙了。在那種情況下,請考慮使用分析刪失或區間值數據的方法。
我試圖解決將預測變量分為三類的問題:檢測以下,然後檢測範圍的中值以下。但這確實很粗糙,其結果取決於我樣本中的中位數。 取而代之的是,我發現了您對假人的處理方法很有趣,這樣我就可以同時具有預測變量的分類效果和連續效果。我只是對如何解釋虛擬變量的係數感到困惑。我應該提一個新問題嗎?
答案就在這裡。當虛擬對象為$ 1 $時,會將值\\ beta_I $添加到預測中。當虛擬對象為$ 0 $時,該值將消失。這裡的所有都是它的。
AdamO
2018-01-19 05:31:53 UTC
view on stackexchange narkive permalink

我認為您誤解了本文的建議:主要是因為該建議沒有任何意義。然後,您將遇到兩個問題:如何重新編碼變量,並且變量值仍然丟失。可能的建議是創建一個缺失指標

一種與鬆散匹配此描述的處理丟失數據的方法有些相關,那就是針對缺失指標進行調整。這當然是一種簡單易行的方法,但總的來說是有偏見的。偏見的弊端是無限的。這實際上是對兩個模型進行擬合併將它們的效果平均在一起:第一個模型是完全條件模型,第二個模型是完全因子模型。完全條件模型是完整的案例模型,其中刪除了每個缺失值的觀察值。因此,它適合20%的數據子集。第二個是對剩餘的80%的擬合,根本不調整缺失值。當沒有不可度量的交互作用,鏈接功能可折疊以及數據隨機丟失(MAR)時,此邊際模型估計的效果與完整模型相同。然後將這些效果通過加權平均值合併。即使在理想條件下,也沒有不可測的相互作用,並且在隨機(MCAR)數據中完全丟失,由於邊緣模型和條件模型估計的效果不同,所以缺少指標方法會導致偏差的產生。在這種情況下,甚至預測都是有偏差的。

更好的選擇是只使用多重插補。即使以非常低的患病率來衡量最缺失的因素,MI仍然可以很好地生成可能值的複雜實現。這裡唯一必要的假設是MAR。

“鏈接功能可折疊”是什麼意思?
@MatthewDrury基本上是“可折疊性”,它意味著調整預測結果而不是主要作用的變量將提高精度,但不會改變估計的作用。
很好,謝謝亞當。以前沒有聽說過該術語。


該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 2.0許可。
Loading...