一位前同事曾經對我說過以下話:
我們通常將正態性檢驗應用於過程的結果,該過程的結果為null時,生成的隨機變量只是漸近地或接近正常(“漸近”部分取決於一些我們不能做大的數量);在廉價內存,大數據和快速處理器的時代,正態性測試應該始終拒絕大型(儘管不是那麼大)樣本的正態分佈。因此,相反,正常性測試僅應用於較小的樣本,因為它們可能具有較低的功效且對I型速率的控制較少。
這是否是有效的論點?這是眾所周知的論點嗎?是否有比“正常”的“模糊”零假設的眾所周知的檢驗?
一位前同事曾經對我說過以下話:
我們通常將正態性檢驗應用於過程的結果,該過程的結果為null時,生成的隨機變量只是漸近地或接近正常(“漸近”部分取決於一些我們不能做大的數量);在廉價內存,大數據和快速處理器的時代,正態性測試應該始終拒絕大型(儘管不是那麼大)樣本的正態分佈。因此,相反,正常性測試僅應用於較小的樣本,因為它們可能具有較低的功效且對I型速率的控制較少。
這是否是有效的論點?這是眾所周知的論點嗎?是否有比“正常”的“模糊”零假設的眾所周知的檢驗?
這不是一個論點。正式的正態性檢驗總是拒絕我們今天使用的龐大樣本量,這是一個(有力地說明)事實。甚至很容易證明,當n變大時,即使與完美正態性的最小偏差也將導致明顯的結果。而且,由於每個數據集都具有一定程度的隨機性,因此沒有一個數據集可以是完全正態分佈的樣本。但是在應用統計學中,問題不在於數據/殘差...是否完全正常,而是足以滿足假設的正常水平。
一個>。下面的代碼構造了一組接近正態分佈但並不完全正態分佈的分佈。接下來,我們用 shapiro.test
測試來自這些幾乎正態分佈的樣本是否偏離正態性。在R中:
x <-plicate(100,{#在每個分佈上生成100個不同的測試c(shapiro.test(rnorm(10)+ c(1,0,2,0,1))$ p.value,#$ shapiro.test(rnorm(100)+ c(1,0,2,0,1))$ p.value,#$ shapiro .test(rnorm(1000)+ c(1,0,2,0,1))$ p.value,#$ shapiro.test(rnorm(5000)+ c(1,0,2,0,1)) $ p.value)#$}#rnorm從正態分佈中隨機抽取)行名(x)<- c(“ n10”,“ n100”,“ n1000”,“ n5000”)rowMeans(x<0.05)#顯著偏差的比例n10 n100 n1000 n5000 0.04 0.04 0.20 0.87
最後一行檢查每個樣本大小的模擬中哪個比例明顯偏離正態。因此,根據Shapiro-Wilks的研究,在87%的案例中,有5000個觀測值的樣本與正常值存在明顯差異。但是,如果您看到qq圖,就永遠不會決定是否偏離正態。下面以示例為例,對一組具有p值的隨機樣本
n10 n100 n1000 n5000 0.760 0.681 0.164 0.007
在考慮正常性測試是否“本質上是無用的”時,首先必須考慮它應該對什麼有用。許多人(至少……很多科學家)誤解了正態性測試答案的問題。
正態性檢驗答案:是否有令人信服的證據表明偏離高斯理想?對於較大的實際數據集,答案幾乎總是肯定的。
科學家們經常希望正態性檢驗能夠回答這個問題:數據是否偏離高斯理想足以“禁止”使用假設為高斯分佈的檢驗?科學家通常希望由正態性檢驗作為決定何時放棄常規(ANOVA等)檢驗的裁判,而是分析轉換後的數據或使用基於等級的非參數檢驗或重採樣或自舉方法。為此,正常性測試不是很有用。
I think that tests for normality can be useful as companions to graphical examinations. They have to be used in the right way, though. In my opinion, this means that many popular tests, such as the Shapiro-Wilk, Anderson-Darling and Jarque-Bera tests never should be used.
Before I explain my standpoint, let me make a few remarks:
(In my definiton) a test for normality is directed against a class of alternatives if it is sensitive to alternatives from that class, but not sensitive to alternatives from other classes. Typical examples are tests that are directed towards skew or kurtotic alternatives. The simplest examples use the sample skewness and kurtosis as test statistics.
Directed tests of normality are arguably often preferable to omnibus tests (such as the Shapiro-Wilk and Jarque-Bera tests) since it is common that only some types of non-normality are of concern for a particular inferential procedure.
Let's consider Student's t-test as an example. Assume that we have an i.i.d. sample from a distribution with skewness $\gamma=\frac{E(X-\mu)^3}{\sigma^3}$ and (excess) kurtosis $\kappa=\frac{E(X-\mu)^4}{\sigma^4}-3.$ If $X$ is symmetric about its mean, $\gamma=0$. Both $\gamma$ and $\kappa$ are 0 for the normal distribution.
Under regularity assumptions, we obtain the following asymptotic expansion for the cdf of the test statistic $T_n$:$$P(T_n\leq x)=\Phi(x)+n^{-1/2}\frac{1}{6}\gamma(2x^2+1)\phi(x)-n^{-1}x\Big(\frac{1}{12}\kappa (x^2-3)-\frac{1}{18}\gamma^2(x^4+2x^2-3)-\frac{1}{4}(x^2+3)\Big)\phi(x)+o(n^{-1}),$$
where $\Phi(\cdot)$ is the cdf and $\phi(\cdot)$ is the pdf of the standard normal distribution.
$\gamma$ appears for the first time in the $n^{-1/2}$ term, whereas $\kappa$ appears in the $n^{-1}$ term. The asymptotic performance of $T_n$ is much more sensitive to deviations from normality in the form of skewness than in the form of kurtosis.
It can be verified using simulations that this is true for small $n$ as well. Thus Student's t-test is sensitive to skewness but relatively robust against heavy tails, and it is reasonable to use a test for normality that is directed towards skew alternatives before applying the t-test.
As a rule of thumb (not a law of nature), inference about means is sensitive to skewness and inference about variances is sensitive to kurtosis.
Using a directed test for normality has the benefit of getting higher power against ''dangerous'' alternatives and lower power against alternatives that are less ''dangerous'', meaning that we are less likely to reject normality because of deviations from normality that won't affect the performance of our inferential procedure. The non-normality is quantified in a way that is relevant to the problem at hand. This is not always easy to do graphically.
As $n$ gets larger, skewness and kurtosis become less important - and directed tests are likely to detect if these quantities deviate from 0 even by a small amount. In such cases, it seems reasonable to, for instance, test whether $|\gamma|\leq 1$ or (looking at the first term of the expansion above) $$|n^{-1/2}\frac{1}{6}\gamma(2z_{\alpha/2}^2+1)\phi(z_{\alpha/2})|\leq 0.01$$ rather than whether $\gamma=0$. This takes care of some of the problems that we otherwise face as $n$ gets larger.
恕我直言,正態性檢驗絕對是無用的,原因如下:
在大樣本上,諸如T檢驗和ANOVA之類的東西對於非正態性非常強大。
無論如何,正態分佈總體的整體思想只是一個方便的數學近似。通常統計上處理的數量都不可能合理地具有所有實數支持的分佈。例如,人的身高不能為負。負質量不能超過宇宙中的負質量。因此,可以肯定地說,沒有是完全在現實世界中正態分佈。
我認為對正態性的預測試(包括使用圖形的非正式評估)沒有抓住重點。
在詢問對正常性的測試或任何形式的粗略檢查是否“有用”之前,您必須回答問題背後的問題:“您為什麼要問?”
例如,如果您僅如果想對一組數據的平均值設置置信度極限,那麼偏離正態性是否重要很重要,這取決於您擁有多少數據以及偏離量有多大。但是,如果您想預測將來的觀測值或從中採樣的人口中最極端的價值,那麼偏離正態性就很關鍵。
讓我添加一件事:
執行正常性測試而不考慮其alpha誤差會提高您執行alpha誤差的總體可能性。
只要您不控制alpha誤差累積,您就永遠不會忘記每個附加測試都會這樣做。因此,另一個駁回正態性測試的理由。
我曾經認為正常性測試完全沒有用。
但是,現在我正在為其他研究人員提供諮詢。通常,獲取樣本非常昂貴,因此,他們將要對n = 8進行推斷。
在這種情況下,使用非參數檢驗很難找到統計顯著性,但是n = 8的t檢驗對偏離正態性很敏感。因此,我們得到的是,我們可以說“很好,在假設正態性的條件下,我們發現統計學上的顯著差異”(不用擔心,這些通常是試驗性研究……)。
然後,我們需要某種方式來評估該假設。我在訓練營中途走了一半,看地塊是個更好的選擇,但事實是,可能會有很多分歧,如果與您意見不合的人之一是您稿件的審稿人。
在許多方面,我仍然認為正常性測試中存在許多缺陷:例如,我們應該比II型更多地考慮II型錯誤。但是有必要對此加以考慮。
對於它的價值,我曾經為截斷的正態分佈開發了快速採樣器,並且正態性測試(KS)在調試功能時非常有用。該採樣器以巨大的樣本量通過了測試,但是有趣的是,GSL的之字形採樣器沒有通過。
這裡的答案已經解決了幾個重要問題。快速總結:
我首先添加一個答案,以引用我的一篇個人最常訪問和閱讀的統計文章:Lumley等人的“ 大型公共衛生數據集中正態性假設的重要性”。等值得全文閱讀。摘要指出:
在足夠大的樣本中,t檢驗和最小二乘線性回歸不需要任何正態分佈假設。先前的模擬研究表明,“足夠大”通常小於100,即使對於我們非常非正常的醫療費用數據,也小於500。這意味著在公共衛生研究中,樣本通常大大大於此值, -test和線性模型是有用的默認工具,用於分析許多類型的數據中的差異和趨勢,而不僅僅是具有正態分佈的數據。對於正態性的正式統計檢驗尤其不可取,因為它們在分佈重要的小樣本中具有低功效,而在分佈不重要的大型樣本中具有高功效。
雖然線性回歸的大樣本屬性已廣為人知,但對正態性假設不重要所需的樣本量的研究很少。特別是,尚不清楚所需的樣本量如何取決於模型中預測變量的數量。
對正態分佈的關注會分散這些方法的真實假設。線性回歸的確假設結果變量的方差近似恆定,但是對這兩種方法的主要限制是,它們假定足以檢查結果變量的均值變化。如果對分佈的其他一些摘要感興趣,則t檢驗和線性回歸可能不合適。
總結:與回答特定科學問題的重要性相比,正常性通常不值得討論或引起關注。如果希望對匯總數據中的均值差,則t檢驗和ANOVA或線性回歸在更廣泛的意義上是合理的。即使不滿足分配假設,基於這些模型的測試仍保持正確的alpha水平,儘管功率可能會受到不利影響。
正態分佈之所以會受到關注的原因可能是出於經典原因,在這種情況下,可以獲得基於ANOVA的F分佈和T檢驗的Student-T分佈的精確檢驗。事實是,在科學的許多現代進步中,我們通常處理比以前收集的數據集更大的數據集。如果實際上是在處理一個小的數據集,那麼這些數據是正態分佈的原理就不能來自這些數據本身:根本沒有足夠的能力。我認為,對其他研究,重複甚至測量過程的生物學或科學進行評論,是討論存在於觀測數據基礎上的可能概率模型的一種更為合理的方法。
由於這個原因,選擇基於等級的測試作為替代方案完全沒有意義。但是,我會同意,使用可靠的方差估計器(例如折刀或引導程序)提供了重要的計算替代方案,可以在各種更重要的違反模型規範的情況下進行測試,例如獨立性或這些錯誤的相同分佈。
我認為最大熵方法可能在這裡有用。我們可以指定正態分佈,因為我們認為數據是“正態分佈的”(無論這意味著什麼),或者因為我們僅期望看到大約相同幅度的偏差。另外,由於正態分佈只有兩個足夠的統計量,因此它對不會更改這些數量的數據更改不敏感。因此,從某種意義上講,您可以將正態分佈視為具有相同第一矩和第二矩的所有可能分佈的“平均值”。這提供了為什麼最小二乘應該和它一樣工作的原因之一。
您提出的論點是一種觀點。我認為正常性測試的重要性在於確保數據不會嚴重偏離正常值。我有時會用它來決定在推理過程中使用參數測試還是非參數測試。我認為該測試對中型和大型樣本(中央極限定理不起作用)很有用。我傾向於使用Wilk-Shapiro或Anderson-Darling測試,但是運行SAS可以使它們全部獲得,並且他們通常都同意。另一方面,我認為圖形過程(例如Q-Q圖)同樣有效。正式測試的優點是客觀。在小樣本中,這些擬合優度檢驗實際上沒有任何功能,這是直覺的,因為來自正態分佈的小樣本可能偶然看起來是非正態的,這在測試中得到了說明。在小樣本中也不容易看到高偏斜度和峰度,它們將許多非正態分佈與正態分佈區分開。
我認為前2個問題已得到徹底回答,但我認為第3個問題未得到解決。許多測試將經驗分佈與已知的假設分佈進行比較。 Kolmogorov-Smirnov試驗的臨界值基於完全指定的F。可以對其進行修改,以針對帶有估計參數的參數分佈進行測試。因此,如果模糊性意味著要估計兩個以上的參數,那麼問題的答案是肯定的。這些測試可以應用於3個或更多參數係列。某些測試旨在針對特定的發行版本進行測試時具有更好的性能。例如,當零假設分佈為正態時,當測試正態性時,Anderson-Darling檢驗或Shapiro-Wilk檢驗比K-S或卡方檢驗具有更大的功效。 Lillefors設計了一種適合指數分佈的測試。
我不會說這是沒有用的,但是它確實取決於應用程序。注意,您永遠不會真正知道數據的來源,而您所擁有的只是一小部分實現。您的樣本均值在樣本中始終是有限的,但對於某些類型的概率密度函數,均值可能是不確定的或無限的。讓我們考慮Levy穩定分佈的三種類型,即正態分佈,Levy分佈和Cauchy分佈。您的大多數樣本在尾部都沒有太多觀察結果(即遠離樣本均值)。因此從經驗上很難區分這三個,因此柯西(具有不確定的均值)和利維(具有無限的均值)很容易偽裝成正態分佈。
我沒有提到的一種很好的使用正態性測試的方法是確定使用z分數是否可以。假設您從總體中選擇了一個隨機樣本,並且希望找到從總體中選擇一個隨機個體並獲得80或更高值的概率。僅當分佈為正態時才能執行此操作,因為要使用z分數,假定人口分佈為正態。
但是我想我也可以認為這是有爭議的...