題:
如何解釋修整百分比與修整平均值的關係圖?
wchargin
2014-10-05 21:24:18 UTC
view on stackexchange narkive permalink

作為家庭作業問題的一部分,我被要求通過刪除最小和最大的觀測值來計算數據集的均值,並解釋結果。修整後的平均值低於未修整的平均值。

我的解釋是,這是因為基本分佈正偏,所以左尾比右尾更密集。由於這種偏斜,刪除高基準數據比刪除低基準數據更容易拖累均值,因為從非正式的角度來說,還有更多的低數據正在“等待取代”。 (這合理嗎?)

然後我開始懷疑修整百分比是如何影響的,因此我針對各種$ k計算了修整後的平均值$ \ bar x _ {\ operatorname {tr}(k)} $ = 1 / n,2 / n,\ dotsc,(\ frac {n} {2} -1)/ n $。我得到了一個有趣的拋物線形狀:Plot of trimming percentage vs. trimmed mean; forms a concave-up curve that looks roughly parabolic

我不太確定該如何解釋。從直覺上看,似乎曲線圖的斜率應該(與中位數的k個數據點內的分佈部分的負偏度成正比)。 (這個假設確實可以驗證我的數據,但是我只有$ n = 11 $,所以我不太有把握。)

這種類型的圖是否有名稱,或者它是常用的?我們可以從該圖中收集哪些信息?有標準解釋嗎?


供參考,數據為:4、5、5、6、11、17、18、23、33、35、80。

三 答案:
Nick Cox
2014-10-06 23:16:56 UTC
view on stackexchange narkive permalink

@gung和@kjetil b。 halvorsen都是正確的。

我在

Rosenberger,J.L.和M. Gasko中找到了這樣的圖。 1983年。比較位置估算器:修剪平均值,中位數和三邊形。在了解穩健和探索性數據分析中,Eds。霍格林(D.C. Hoaglin),莫斯特(F.圖基(297-338)。紐約:威利。

Davison,A.C.和D.V.欣克利。 1997年。 Bootstrap方法及其應用。劍橋:劍橋大學出版社。

,並在

Cox,N.J. 2013.中進一步舉例說明。 Stata Journal 13:640-666。 http://www.stata-journal.com/article.html?article=st0313 [免費使用pdf]

,其中討論了修整方法的許多方面。

據我所知,該圖沒有唯一的名稱。每個可能情節的不同名稱實際上將是一場噩夢:圖形化術語早已一團糟。我只是稱其為修整後的平均值與修整後的數字,分數或百分比的關係圖(因此顛倒了OP的措辭)。

有關“對抗”的更多小評論,請參見回歸中的異方差

編輯中的答案:有關(僅適用於語言專家)的更多信息,參見此處

gung - Reinstate Monica
2014-10-06 00:53:24 UTC
view on stackexchange narkive permalink

我從未聽說過這張圖,但是我認為它很整潔。可能有人曾經這樣做過。如果您認為數據的不同比例離群值,那麼您可以使用它來查看均值如何移動和/或穩定。之所以具有拋物線形狀,是因為您的(初始)分佈總體上是正確偏斜的,但是偏斜的程度在分佈的中心並不相同。為了進行比較,請考慮下面的內核密度圖。

enter image description here

左側是您的數據,它們被一一修剪。右邊是這些數據: y = c(5.016528,7.601235,10.188326,13.000723,16.204741,20.000000,24.684133,30.767520,39.260622,52.623029,79.736416),是採用標準對數正態分佈的分位數從等距的百分位數乘以20以使值範圍相似。

您的數據開始偏斜,但是到第5行,它們就向左偏斜,因此,修剪更多數據開始使均值上升。隨著修整的繼續,右側的數據保持類似的偏斜。

以下是對數正態數據和統一數據( z = 1:11 ,無偏斜-完全對稱)的繪圖。

enter image description here enter image description here

kjetil b halvorsen
2014-10-05 22:26:26 UTC
view on stackexchange narkive permalink

我認為這種圖形沒有名稱,但是您在做什麼是合理的,並且您的解釋是有效的。我認為您正在做的事情與Hampel的影響函數有關,請參閱 https://en.wikipedia.org/wiki/Robust_statistics#Empirical_influence_function,尤其是有關經驗影響函數的部分。而且您的圖肯定與某種程度的數據偏度有關,因為如果您的數據是完全對稱的,則圖將是平坦的。您應該調查一下!

 編輯 

此圖的一個擴展是還要顯示在左右使用不同修剪的效果。由於這不是在R中帶有參數 trim 的普通 mean 函數中實現的,所以我編寫了自己的修整均值函數。為了獲得更平滑的圖,當修整分數意味著刪除非整數點時,我使用線性插值。這給出了函數:

  my.trmean <-函數(x,trim){x <-sort(x)if(length(trim)== 1){tr1 <- tr2 < -trim} else {tr1 <- trim [1] tr2 <- trim [2]} stopifnot((0 < = tr1)&&(tr1 < = 0.5)); stopifnot((0 < = tr2)&&(tr2 < = 0.5))n <- length(x)if(((tr1> = 0.5-1 / n)&&(tr2> =(5-1 / n)) ))k1 <-floor(n * tr1); k2 <- floor(n * tr2)a1 <- n * tr1-k1; a2 <- n * tr2-k2範圍<- if((k1 + 2)< =(n-k2-1))((k1 + 2):( n-k2-1))else NULL trmean <-sum( c((1-a1)* x [k1 + 1],x [crange],(1-a2)* x [n-k2]))/(length(crange)+ 2-(a1 + a2))trmean }  

然後我模擬一些數據並將結果顯示為等高線圖:

  tr1 <- seq(0,0.5,length.out = 25)tr2 <- seq(0,0.5 ,length.out = 25)x <- rgamma(10000,1.5)vals <- external(tr1,tr2,FUN = Vectorize(function(t1,t2)my.trmean(x,c(t1,t2)))) image(tr1,tr2,vals,xlab =“左修剪”,ylab =“右修剪”,main =“修剪效果”)輪廓(tr1,tr2,vals,nlevels = 20,add = TRUE) 

給出以下結果:

contour plot showing effect of trimming



該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...