題:
R-QQPlot:如何查看數據是否正態分佈
Le Max
2013-03-15 14:14:08 UTC
view on stackexchange narkive permalink

在進行了Shapiro-Wilk正態性檢驗後,我已對此進行了繪製。測試表明,總體上可能呈正態分佈。但是,如何在該圖上看到這種“行為”? enter image description here

更新

簡單的數據直方圖:

enter image description here

UPDATE

Shapiro-Wilk測試表明:

enter image description here

重新編輯:SW測試結果**拒絕以下假設:這些數據是從共同的正態分佈中獨立得出的:p值非常小。 (這在顯示短尾巴的qq圖和顯示正偏度的直方圖中都很明顯。)這表明您誤解了該測試。當您正確解釋測試時,您還有問題要問嗎?
因此要清楚地了解這一點。我有兩個不同的假設。 SW說不,地塊說是。那麼,我的測試的真正解決方案是什麼?
相反:軟件和所有圖解在它們所說的方面是一致的。 qq圖和直方圖顯示了數據偏離正態性的特定方式。 SW測試表明,此類數據不太可能來自正態分佈。
為什麼這些圖說它不是正態分佈的? qqplot創建一條直線,直方圖看起來也呈正態分佈?我不明白;(
qq圖顯然*不是*直的,而直方圖顯然*不是*對稱的(這也許是正態分佈直方圖必須滿足的許多標準中最基本的)。 [Sven Hohenstein的答案](http://stats.stackexchange.com/a/52295)解釋瞭如何讀取qq圖。
有關q-q圖解釋的有用指南,網址為http://emp.byui.edu/BrownD/Stats-intro/dscrptv/graphs/qq-plot_egs.htm
您可能會發現,生成相同大小的法線向量並用該法線數據創建QQ圖很有用,以查看當數據實際上來自法線分佈時該法線將如何顯示。
五 答案:
Sven Hohenstein
2013-03-15 14:40:18 UTC
view on stackexchange narkive permalink

如果數據呈正態分佈,則QQ正態圖中的點位於對角直線上。您可以使用命令 qqline(x)將這條線添加到QQ圖中,其中 x 是值的向量。

正常值和非正態分佈:

正態分佈

  set.seed(42)x <-rnorm(100) 

帶有以下行的QQ正態圖:

  qqnorm(x); qqline(x) 

enter image description here

與直線的偏差很小。這表示正態分佈。

直方圖:

  hist(x) 

enter image description here

非正態(Gamma)分佈

  y <- rgamma(100,1) 

QQ正態圖:

  qqnorm(y); qqline(y) 

enter image description here

這些點顯然不同於直線。

直方圖證實了非正態性。分佈不是鍾形,而是正偏(即,大多數數據點在下半部分)。正態分佈的直方圖顯示了分佈中心的最高頻率。

  hist(y) 

enter image description here

我發現將置信區間放在qqplot上很有用。沒有什麼是“完全”正常的,樣本大小可以驅動某些東西不精確並仍在正常範圍之內。
@EngrStudent您是否可以共享代碼以將置信區間包括在qqplot中?
@danno檢查`car`軟件包中的`qqPlot`函數。
@danno-查看“汽車”庫中的“ qqPlot”。它已經存在了一段時間,但我沒有做到。它增加了置信區間。您還可以為一些非正態分佈指定基本分佈。這是我在下面的答案。
我認為對於新手來說,也可能最好指出這些點需要在直線上大約位於$處,以便正常檢驗假設。
Glen_b
2013-03-15 14:57:02 UTC
view on stackexchange narkive permalink

該測試表明總體可能呈正態分佈。

否;

假設檢驗不能告訴您空值的可能性。實際上,您可以打賭該null為false。

Q-Q圖不能很好地表明非正態(該圖相當筆直);

直方圖按原樣顯示可能也沒有太多;不過,左尾也許比您預期的短一些,但這確實無關緊要。它也暗示左尾巴稍短。 但請參見此處

您的數據所來自的總體分佈將不完全正常。但是,Q-Q圖顯示正態性可能是一個相當不錯的近似值。

如果樣本量不太小,可能缺少對Shapiro-Wilk的拒絕也可能是相同的。

更新:您所做的編輯將包括實際的Shapiro- Wilk p值很重要,因為實際上這表明您會拒絕典型有效水平的零值。該測試表明您的數據不是正態分佈的,並且圖所示的輕微偏斜可能是測試所拾取的。對於可能假設變量本身俱有正態性的典型過程(一個樣本t檢驗是我想到的),在看起來相當大的樣本量的情況下,這種輕微的非正態性幾乎不會產生任何後果。所有-擬合優度檢驗的問題之一是,它們在不重要的時候(當樣本量足夠大以檢測到一些適度的非正態性時)更可能拒絕。同樣,在最重要的時候(樣本量較小時),他們更有可能無法拒絕。

實際上,這使我誤解了OP的聲明:我以為他說不太可能。請注意,我稍微不同意您的意見:雖然測試通常會告訴您,如果零假設為真,那麼觀察將不太可能,但是我們以此辯稱,既然我們得到了這個觀察,那麼零假設就不太可能為真。
謝謝你的回答!我對所有指向另一個方向的陳述感到困惑。明確地說,我的專長是對樣本的正態性做出陳述。那麼,您建議對我的教授說些什麼呢?以及即使樣本量很大也如何顯示正態性?
關於最強,您可能會說:-“ Q-Q圖與正態性合理地一致,但是左尾巴有點'短';有輕微的偏斜跡象。”
Andres Henestrosa
2013-03-15 14:51:58 UTC
view on stackexchange narkive permalink

一些用於檢查R中的正態假設的有效性的工具

 庫(片刻)庫(北測試)庫(e1071)set.seed(777)x <- rnorm(250 ,10,1)#偏斜度和峰度,它們應該在(0,3)偏斜度(x)峰度(x)#附近Shapiro-Wilks testshapiro.test(x)#Kolmogorov-Smirnov testks.test(x,“ pnorm” ,mean(x),sqrt(var(x)))#Anderson-Darling testad.test(x)#qq-plot:您應該觀察到直線的良好擬合qqnorm(x)qqline(x)#p-plot :您應該觀察到直線的良好擬合probplot(x,qdist = qnorm)#擬合法線密度f.den <- function(t)dnorm(t,mean(x),sqrt(var(x)))曲線(f .den,xlim = c(6,14))hist(x,prob = T,add = T) 
Nick Sabbe
2013-03-15 14:42:30 UTC
view on stackexchange narkive permalink

雖然直觀地檢查您的直覺是否與某些測試的結果相匹配是一個好主意,但您不能期望每次都容易。如果試圖檢測希格斯玻色子的人們只相信他們的結果,只要他們可以通過視覺對其進行評估,那麼他們將需要非常敏銳的眼睛。統計數據傾向於收集到最小的差異,即使用肉眼幾乎無法辨別它們。

這就是說:為了正常起見,您的QQ圖應該顯示一條直線:我會說確實不。尾巴上有明顯的彎曲,甚至在中間附近也有一些騷動。從視覺上看,我仍然可能願意說(取決於檢查正常性的目標),這些數據是“合理地”正常的。

但是請注意:對於大多數要檢查正常性的目的,您只需要方法的正態性而不是觀測值的正態性,因此中心極限定理可能足以拯救您。另外:雖然正常性通常是您需要“正式”檢查的一種假設,但事實證明,許多測試對於不滿足這種假設並不敏感。

EngrStudent
2016-04-17 08:10:00 UTC
view on stackexchange narkive permalink

我喜歡R庫 car 中的版本,因為它不僅提供了集中趨勢,而且還提供了置信區間。它提供視覺指導,以幫助確認數據的行為是否與假設分佈一致。 ,信封= .99)

一些鏈接:



該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...