題:
正常性測試“基本上沒有用”嗎?
shabbychef
2010-09-08 22:47:22 UTC
view on stackexchange narkive permalink

一位前同事曾經對我說過以下話:

我們通常將正態性檢驗應用於過程的結果,該過程的結果為null時,生成的隨機變量只是漸近地或接近正常(“漸近”部分取決於一些我們不能做大的數量);在廉價內存,大數據和快速處理器的時代,正態性測試應該始終拒絕大型(儘管不是那麼大)樣本的正態分佈。因此,相反,正常性測試僅應用於較小的樣本,因為它們可能具有較低的功效且對I型速率的控制較少。

這是否是有效的論點?這是眾所周知的論點嗎?是否有比“正常”的“模糊”零假設的眾所周知的檢驗?

供參考:我認為這不必是社區Wiki。
我不確定是否有“正確答案” ...
參見http://meta.stats.stackexchange.com/questions/290/what-is-community-wiki
從某種意義上說,對於有限數量的參數的所有測試都是如此。固定$ k $(發出測試的參數數量)並且$ n $無限增長時,兩組之間的任何差異(無論大小如何)總會在某個時刻打破零值。實際上,這是支持貝葉斯測試的一個論點。
對我來說,這不是一個有效的論點。無論如何,在給出任何答案之前,您需要使事情正式化。您可能錯了,也可能錯了,但是現在您所擁有的不過是一種直覺:對我來說,“在廉價內存,大數據和快速處理器的時代,正常性測試應始終拒絕正常的空值”需要澄清:)我認為,如果您嘗試提供更多的形式精度,答案將很簡單。
“是否有不適合假設檢驗的大型數據集”主題中的主題討論了該問題的概括。 (http://stats.stackexchange.com/questions/2516/are-large-data-sets-inappropriate-for-hypothesis-testing)
在給出問題的答案之前,“拒絕正態分佈的零值”需要詳盡而正確的解釋。此外,大樣本(與小樣本)和術語:大樣本之間存在差異。樣本的n大小與k樣本的統計理論之間存在差異。讓我們澄清一下。
十六 答案:
Joris Meys
2010-09-09 03:23:19 UTC
view on stackexchange narkive permalink

這不是一個論點。正式的正態性檢驗總是拒絕我們今天使用的龐大樣本量,這是一個(有力地說明)事實。甚至很容易證明,當n變大時,即使與完美正態性的最小偏差也將導致明顯的結果。而且,由於每個數據集都具有一定程度的隨機性,因此沒有一個數據集可以是完全正態分佈的樣本。但是在應用統計學中,問題不在於數據/殘差...是否完全正常,而是足以滿足假設的正常水平。

讓我用 Shapiro-Wilk檢驗舉例說明

一個>。下面的代碼構造了一組接近正態分佈但並不完全正態分佈的分佈。接下來,我們用 shapiro.test 測試來自這些幾乎正態分佈的樣本是否偏離正態性。在R中:

  x <-plicate(100,{#在每個分佈上生成100個不同的測試c(shapiro.test(rnorm(10)+ c(1,0,2,0,1))$ p.value,#$ shapiro.test(rnorm(100)+ c(1,0,2,0,1))$ p.value,#$ shapiro .test(rnorm(1000)+ c(1,0,2,0,1))$ p.value,#$ shapiro.test(rnorm(5000)+ c(1,0,2,0,1)) $ p.value)#$}#rnorm從正態分佈中隨機抽取)行名(x)<- c(“ n10”,“ n100”,“ n1000”,“ n5000”)rowMeans(x<0.05)#顯著偏差的比例n10 n100 n1000 n5000 0.04 0.04 0.20 0.87  

最後一行檢查每個樣本大小的模擬中哪個比例明顯偏離正態。因此,根據Shapiro-Wilks的研究,在87%的案例中,有5000個觀測值的樣本與正常值存在明顯差異。但是,如果您看到qq圖,就永遠不會決定是否偏離正態。下面以示例為例,對一組具有p值的隨機樣本

alt text

  n10 n100 n1000 n5000 0.760 0.681 0.164 0.007  
這很棒!我因為不自己做實驗而打自己...
附帶說一句,在n很大的許多情況下,中心極限定理使形式正規性檢查變得不必要。
是的,真正的問題不是數據是否實際上是正態分佈的,而是對於正態性的基本假設而言,它們是否足夠正態,對於分析的實際目的而言是合理的,所以我會認為基於CLT的論點通常是[sic]足夠了。
+1:好答案,非常直觀。也許有點題外話,但是如果沒有qq-plots,由於缺乏可視化,該如何實現第二種方法?在這裡採取什麼邏輯步驟來獲得p值?
@posdef:這些僅僅是shapiro-wilks檢驗的p值,表明它們與qq圖相矛盾。
@joris:我認為可能存在誤解; Shapiro-Wilks給出p_ {n5000} = 0.87,而第二次計算得出p_ {n5000} = 0.007。還是我誤會了什麼?
確實。 0.87是表示偏離正態性的數據集的比例,這意味著在87%的幾乎正態分佈的數據集中,Shapiro-Wilks的p值小於0.05。第二部分只是一些說明此情況的數據集的示例。
我看到了@joris:,感謝您為我整理了一下:)
這是為什麼p值需要隨著樣本大小的增加而向下移動的另一個示例。在大數據世界中,0.05還不夠嚴格。只是出於我的好奇心-如果將pvalue設置為取決於樣本大小,會發生什麼?
哇,謝謝你的回答!您是如何繪製qq圖的?
在R中具有功能qqnorm的@maximus
除非已知總體標準差,否則@joris-meys中心極限定理將無濟於事。如Rand Wilcox所示,隨機變量中很小的干擾就會使樣本方差失真,並使測試統計量的分佈與$ t $分佈相差甚遠。
**這個答案似乎沒有解決這個問題:**它僅表明SW測試未達到其名義置信度,因此它確定了該測試中的缺陷(或至少在其R實現中)。 。但這就是全部,它與正常性測試的有用範圍無關。最初的說法是,正態性檢驗總是拒絕大樣本量,這是完全錯誤的。
@whuber這個答案解決了這個問題。問題的全部是“接近正常”中的“接近”。 S-W測試從正態分佈中抽取樣本的機會是多少。由於我構建的發行版是“故意”不正常的,因此您應該期望S-W測試能夠實現它所承諾的:拒絕null。整個問題是,這種拒絕在大樣本中是沒有意義的,因為偏離正常值不會導致功率損失。因此測試是正確的,但毫無意義,如QQplots所示
@FrankHarrell我看不到您的觀點。蘭德·威爾考克斯(Rand Wilcox)談論的樣本數量為30個或更多。問題是關於非常大的樣本。 30甚至都不大。 5000,那是很大的(實際上不是那麼大)。蘭德·威爾科克斯(Rand Wilcox)進行數學運算後,即使樣本來自非常偏斜的分佈,其均值方差也很好地遵循了卡方分佈(樣本為5000)。
對於我來說,通常我們不能從樣本中分辨出該樣本是否可以通過正態性假設方法充分分析這一事實就足夠了。 Wilcox給出了一些例子,其中非正態性(正態分佈被另一個具有較高方差的正態分佈所污染)是如此難以察覺,以至於您在密度函數中看不到它,但是微小的非正態性會在測試中造成嚴重失真的操作特點。大多數統計學家尚未真正解決的另一個問題是,標準偏差在不對稱的情況下可能沒有意義。
事實是事實,但對CLT毫無幫助。 CLT非常具體地說明近似值在什麼條件下成立。您在同一堆上扔了不同的東西。是的,Wilcox提供了這些示例。不,他不是在談論大樣本,也不是在駁斥CLT,甚至沒有。他正確地指出,人們忘記了CLT所處的條件。我同意您的看法,即在沒有說明最小相關差異是多少的情況下測試5000個樣本量的差異是沒有意義的。但這是另一個問題。
我依賴於您寫的內容,而誤解了“幾乎是正常”分佈的含義。現在,我看到了(但*僅*通過閱讀代碼並進行了仔細的測試)您正在模擬三個標準正態分佈,均值分別為$ 0,$,$ 1,$和$ 2 $,並將結果組合為$ 2:2: 1美元的比例。在這種情況下,您不是*希望*一個很好的Normality檢驗會拒絕null嗎?您已經有效地證明了QQ地塊不是很好地檢測這種混合物,僅此而已!
沒有一種現實生活中的分佈是完全正常的。因此,對於足夠大的樣本,所有正態性檢驗都應拒絕無效值。是的,SW會做它需要做的事情。但這對於應用統計數據毫無價值。當樣本量為5000並且幾乎呈正態分佈時,例如選擇Wilcoxon毫無意義。這就是OP的一句話:在有大樣本量時測試正態性有意義嗎?答:不可以。為什麼?因為您可以(正確)檢測到對您的分析無關緊要的偏差。如QQ劇情所指出
順便說一句,QQ情節並不是要檢測這種混合物。它們是圖形化工具,可讓您對使用特定測試時是否會斷電甚至獲得偏差的估計有一個清晰的認識。這就是他們的全部。對於實用科學中99%的統計問題,這綽綽有餘。
我不同意你的看法。我只是(輕輕地)反對您最近在這些評論中提出的要點沒有出現在您的答案中。
-1
@JorisMeys您能指出我一篇論文還是證明“當n變大時,即使與完美正態性的最小偏差也會導致顯著結果”?:)
-1
此示例可用作一個論點,認為未通過“回歸檢驗”的參數應為應用回歸或其他分類方法(而不是立即應用轉換)的參數。
@JorisMeys感謝您的說明性回答。您的帖子清楚地說明了問題,但是解決方案是什麼?有“幾乎正常”的測試嗎?在概念上像TOST等效測試一樣嗎?我正面臨一個確切的問題,其中一位審閱者要求證明正態假設的合理性-QQ圖看起來不錯,但是由於樣本量大,該測試非常重要。
@thc只需使用QQ情節進行說明即可。而且,如果樣本量足夠大,那麼在許多情況下,中心極限定理將為您提供正態假設。
中心極限定理有時在檢查測試水平時可能很有用,但對功效沒有幫助;通常,相對效率(可以說是最強大的測試)不會隨樣本數量的增加而增加。
Harvey Motulsky
2010-09-09 07:35:31 UTC
view on stackexchange narkive permalink

在考慮正常性測試是否“本質上是無用的”時,首先必須考慮它應該對什麼有用。許多人(至少……很多科學家)誤解了正態性測試答案的問題。

正態性檢驗答案:是否有令人信服的證據表明偏離高斯理想?對於較大的實際數據集,答案幾乎總是肯定的。

科學家們經常希望正態性檢驗能夠回答這個問題:數據是否偏離高斯理想足以“禁止”使用假設為高斯分佈的檢驗?科學家通常希望由正態性檢驗作為決定何時放棄常規(ANOVA等)檢驗的裁判,而是分析轉換後的數據或使用基於等級的非參數檢驗或重採樣或自舉方法。為此,正常性測試不是很有用。

+1是一個很好且內容豐富的答案。我發現查看一個常見誤解的好解釋很有用(我偶然遇到的一個誤解是:http://stats.stackexchange.com/questions/7022/parameter-estimation-for-normal-distribution-in-java) 。我想念的是這種常見誤解的替代解決方案。我的意思是,如果正態性檢驗是錯誤的方法,那麼如何檢查正態近似值是否可接受/合理?
分析師(或研究人員/科學家)的(常識)感是不可替代的。和經驗(通過嘗試觀察來學習:如果我認為這是正常的話,我將得到什麼結論?圖形是您最好的朋友。
我喜歡這篇論文,它闡明了您的觀點:Micceri,T.(1989)。獨角獸,法線和其他不可思議的生物。心理公報,105(1),156-166。
查看圖形很棒,但是如果要手動檢查的數量太多怎麼辦?我們可以製定合理的統計程序指出可能出現的問題點嗎?我正在考慮大規模使用A / B實驗人員的情況:http://www.exp-platform.com/Pages/SevenRulesofThumbforWebSiteExperimenters.aspx。
MånsT
2012-06-08 13:57:33 UTC
view on stackexchange narkive permalink

I think that tests for normality can be useful as companions to graphical examinations. They have to be used in the right way, though. In my opinion, this means that many popular tests, such as the Shapiro-Wilk, Anderson-Darling and Jarque-Bera tests never should be used.

Before I explain my standpoint, let me make a few remarks:

  • In an interesting recent paper Rochon et al. studied the impact of the Shapiro-Wilk test on the two-sample t-test. The two-step procedure of testing for normality before carrying out for instance a t-test is not without problems. Then again, neither is the two-step procedure of graphically investigating normality before carrying out a t-test. The difference is that the impact of the latter is much more difficult to investigate (as it would require a statistician to graphically investigate normality $100,000$ or so times...).
  • It is useful to quantify non-normality, for instance by computing the sample skewness, even if you don't want to perform a formal test.
  • Multivariate normality can be difficult to assess graphically and convergence to asymptotic distributions can be slow for multivariate statistics. Tests for normality are therefore more useful in a multivariate setting.
  • Tests for normality are perhaps especially useful for practitioners who use statistics as a set of black-box methods. When normality is rejected, the practitioner should be alarmed and, rather than carrying out a standard procedure based on the assumption of normality, consider using a nonparametric procedure, applying a transformation or consulting a more experienced statistician.
  • As has been pointed out by others, if $n$ is large enough, the CLT usually saves the day. However, what is "large enough" differs for different classes of distributions.

(In my definiton) a test for normality is directed against a class of alternatives if it is sensitive to alternatives from that class, but not sensitive to alternatives from other classes. Typical examples are tests that are directed towards skew or kurtotic alternatives. The simplest examples use the sample skewness and kurtosis as test statistics.

Directed tests of normality are arguably often preferable to omnibus tests (such as the Shapiro-Wilk and Jarque-Bera tests) since it is common that only some types of non-normality are of concern for a particular inferential procedure.

Let's consider Student's t-test as an example. Assume that we have an i.i.d. sample from a distribution with skewness $\gamma=\frac{E(X-\mu)^3}{\sigma^3}$ and (excess) kurtosis $\kappa=\frac{E(X-\mu)^4}{\sigma^4}-3.$ If $X$ is symmetric about its mean, $\gamma=0$. Both $\gamma$ and $\kappa$ are 0 for the normal distribution.

Under regularity assumptions, we obtain the following asymptotic expansion for the cdf of the test statistic $T_n$:$$P(T_n\leq x)=\Phi(x)+n^{-1/2}\frac{1}{6}\gamma(2x^2+1)\phi(x)-n^{-1}x\Big(\frac{1}{12}\kappa (x^2-3)-\frac{1}{18}\gamma^2(x^4+2x^2-3)-\frac{1}{4}(x^2+3)\Big)\phi(x)+o(n^{-1}),$$

where $\Phi(\cdot)$ is the cdf and $\phi(\cdot)$ is the pdf of the standard normal distribution.

$\gamma$ appears for the first time in the $n^{-1/2}$ term, whereas $\kappa$ appears in the $n^{-1}$ term. The asymptotic performance of $T_n$ is much more sensitive to deviations from normality in the form of skewness than in the form of kurtosis.

It can be verified using simulations that this is true for small $n$ as well. Thus Student's t-test is sensitive to skewness but relatively robust against heavy tails, and it is reasonable to use a test for normality that is directed towards skew alternatives before applying the t-test.

As a rule of thumb (not a law of nature), inference about means is sensitive to skewness and inference about variances is sensitive to kurtosis.

Using a directed test for normality has the benefit of getting higher power against ''dangerous'' alternatives and lower power against alternatives that are less ''dangerous'', meaning that we are less likely to reject normality because of deviations from normality that won't affect the performance of our inferential procedure. The non-normality is quantified in a way that is relevant to the problem at hand. This is not always easy to do graphically.

As $n$ gets larger, skewness and kurtosis become less important - and directed tests are likely to detect if these quantities deviate from 0 even by a small amount. In such cases, it seems reasonable to, for instance, test whether $|\gamma|\leq 1$ or (looking at the first term of the expansion above) $$|n^{-1/2}\frac{1}{6}\gamma(2z_{\alpha/2}^2+1)\phi(z_{\alpha/2})|\leq 0.01$$ rather than whether $\gamma=0$. This takes care of some of the problems that we otherwise face as $n$ gets larger.

現在,這是一個很好的答案!
“通常,某些類型的非正態關係與特定的推理過程有關。”-當然,然後應該使用針對這種非正常性的測試。但是事實是使用正態性檢驗表明他在乎正態的所有方面。問題是:在這種情況下,進行正常性測試是一個不錯的選擇。
對特定測試的假設進行充分測試變得普遍,這幸運地消除了一些猜測。
@Carl:您可以為此添加一些參考/示例嗎?
@kjetilbhalvorsen那是兩年前的事,現在我不記得當時的想法了。因此,如果您想要這些信息,您,我或任何人都可以搜索它,或者更好地從頭開始獲得如何做的信息。
這個答案似乎有兩個答案。對於統計學家來說,最初的答案是“很多流行的測試……永遠都不要使用”。不過,在該帖子中,對於非統計學家而言,這是一個隱含的第二個答案,那就是這些測試“對於使用統計學作為一組黑盒方法的從業者特別有用”,而“正態性測試在多變量中更有用設置。”我理解正確嗎?
dsimcha
2010-09-18 07:32:42 UTC
view on stackexchange narkive permalink

恕我直言,正態性檢驗絕對是無用的,原因如下:

  • 在大樣本上,諸如T檢驗和ANOVA之類的東西對於非正態性非常強大。

  • 無論如何,正態分佈總體的整體思想只是一個方便的數學近似。通常統計上處理的數量都不可能合理地具有所有實數支持的分佈。例如,人的身高不能為負。負質量不能超過宇宙中的負質量。因此,可以肯定地說,沒有完全在現實世界中正態分佈。

  • ol>
    電位差是現實世界中可能為負的一個示例。
    @nico:當然可以為負,但由於它在宇宙中只有這麼多的質子和電子,因此有一定的局限性。當然這在實踐中是無關緊要的,但這是我的觀點。正態分佈沒有什麼是“完全正確的”(該模型是錯誤的),但是有很多東西足夠接近(該模型很有用)。基本上,您已經知道模型是錯誤的,並且拒絕或不拒絕null基本上不會提供有關它是否仍然有用的信息。
    @dsimcha-我發現這是一個非常有見地,有用的回應。
    @dsimcha,的$ t $檢驗和ANOVA對非正態性不強健。參見Rand Wilcox的論文。
    @dsimcha“模型錯誤”。不是所有模型都“錯誤”嗎?
    但是,如果您使用(x- \ mu)/ sigma轉換數據,則始終可以在不破壞正態性的情況下允許使用負值,不是嗎?
    Frank Harrell
    2013-08-01 16:52:06 UTC
    view on stackexchange narkive permalink

    我認為對正態性的預測試(包括使用圖形的非正式評估)沒有抓住重點。

    1. 這種方法的用戶認為正態性評估的功效實際上接近1.0。
    2. Wilcoxon,Spearman和Kruskal-Wallis等非參數檢驗如果保持正態性,則效率為0.95。
    3. 鑑於2。可以預先指定使用非參數檢驗檢驗是否甚至可以證明數據可能不是來自正態分佈。
    4. 有序累積概率模型(比例賠率模型是此類的一員)對標準非參數檢驗進行了概括。序數模型對於$ Y $完全是變換不變的,是可靠,強大的,並允許估計分位數和$ Y $的均值。
    5. ol>
    請注意,0.95的效率是“漸近的”:FWIW我想對於典型的有限樣本量,效率要低得多(儘管我當然沒有看過這項研究,也沒有親自嘗試進行研究)
    我探索了一些常見測試中小樣本的相對效率。小樣本的相對效率通常低於ARE,但在通常的樣本量下通常不會很大。ARE通常是非常有用的指南。
    Emil Friedman
    2013-11-27 02:18:47 UTC
    view on stackexchange narkive permalink

    在詢問對正常性的測試或任何形式的粗略檢查是否“有用”之前,您必須回答問題背後的問題:“您為什麼要問?”

    例如,如果您僅如果想對一組數據的平均值設置置信度極限,那麼偏離正態性是否重要很重要,這取決於您擁有多少數據以及偏離量有多大。但是,如果您想預測將來的觀測值或從中採樣的人口中最極端的價值,那麼偏離正態性就很關鍵。

    Henrik
    2010-09-09 13:59:39 UTC
    view on stackexchange narkive permalink

    讓我添加一件事:
    執行正常性測試而不考慮其alpha誤差會提高您執行alpha誤差的總體可能性。

    只要您不控制alpha誤差累積,您就永遠不會忘記每個附加測試都會這樣做。因此,另一個駁回正態性測試的理由。

    我假設您是指先進行正常性測試,然後使用該測試的結果來確定接下來要執行的測試的情況。
    我將正常性測試用作確定是否適合使用某種方法的方法時,將其稱為通用工具。如果在這些情況下應用它們,就犯出Alpha錯誤的可能性而言,最好執行更可靠的測試以避免Alpha錯誤累積。
    您好,亨里克(Henrik),您帶來了一個有趣的多重比較案例,在這種情況下我從未想到過-謝謝。 (+1)
    這對我來說沒有意義。即使您基於正常性檢驗(當然是一個壞主意)在ANOVA或基於排名的方法之間做出選擇,但最終,您仍然只會執行一項興趣比較的檢驗。如果您錯誤地拒絕了正常性,那麼您仍未就此特定比較得出錯誤的結論。您可能正在執行兩個測試,但是唯一可以斷定某某因素起作用的情況是,第二個測試也拒絕$ H_0 $,而第一個測試則拒絕$ H_0 $。因此,沒有alpha錯誤累積...
    從某種意義上講,這使我們回到了對零假設重要性檢驗的普遍批評(為什麼不調整您在職業生涯中將要進行的所有檢驗?如果是的話,根據不同的數據得出的結論如何不同? (研究人員的意圖/未來職業?),但實際上這兩個測試無關。例如,由於您幾年前在同一主題上發表過一些東西而更正測試的案例似乎要強大得多。
    當然,如果使用某些不合適的測試,則錯誤率可能會遠低於其名義水平,但是如果直接執行測試,情況也會如此。正常性測試可能會增加I型錯誤的唯一方法是,如果您拒絕正常性時使用的測試實際上對數據的特定問題不如常規測試那麼健壯。無論如何,這似乎都與阿爾法錯誤累積的概念無關。
    正常性測試可能會增加I型錯誤的另一種方式是,如果我們談論的是“執行alpha錯誤的總體可能性”。測試本身俱有錯誤率,因此“總體”,我們提交錯誤的可能性增加。我想也要強調**一件小事...
    -1
    @Gala實際上,即使對於正態分佈的殘差,最終測試(根據正態性檢驗選擇的參數還是非參數)的I型錯誤率也會被誇大(如果您不具備I型錯誤率,通貨膨脹甚至會更糟)-正常殘差,取決於您使用的測試組合。測試並非無關緊要,這已經在文獻中反复顯示。
    @Björn對我來說仍然沒有意義。您可以閱讀一些有關此文學的例子或評論嗎?
    Cliff AB
    2015-05-20 01:12:34 UTC
    view on stackexchange narkive permalink

    曾經認為正常性測試完全沒有用。

    但是,現在我正在為其他研究人員提供諮詢。通常,獲取樣本非常昂貴,因此,他們將要對n = 8進行推斷。

    在這種情況下,使用非參數檢驗很難找到統計顯著性,但是n = 8的t檢驗對偏離正態性很敏感。因此,我們得到的是,我們可以說“很好,在假設正態性的條件下,我們發現統計學上的顯著差異”(不用擔心,這些通常是試驗性研究……)。

    然後,我們需要某種方式來評估該假設。我在訓練營中途走了一半,看地塊是個更好的選擇,但事實是,可能會有很多分歧,如果與您意見不合的人之一是您稿件的審稿人。

    在許多方面,我仍然認為正常性測試中存在許多缺陷:例如,我們應該比II型更多地考慮II型錯誤。但是有必要對此加以考慮。

    請注意,這裡的論點是測試僅在理論上是無用的。從理論上講,我們總是可以獲取所需的任意數量的樣本...您仍然需要測試以證明您的數據至少在某種程度上接近正態性。
    好點子。我認為您所暗示的乃至我所相信的是,偏離正態性的度量比假設檢驗更為重要。
    只要他們然後不切換到非參數測試並嘗試解釋p值(通過有條件的預測試使它們無效),也許還可以嗎?
    正常性檢驗的功效在n = 8時會非常低;尤其是,偏離正常狀態將嚴重影響測試的性能,假定在小樣本量下(無論是通過測試還是通過視覺)很難檢測到該測試的屬性。
    我同意@Glen_b:;我認為這種情緒與關心II型錯誤而不是I型有關。我的觀點是,現實世界中需要測試正常性。我們當前的工具是否真正滿足了這一需求是一個不同的問題。
    我所看到的幾乎所有的正態性測試都是在使用依賴於該假設的測試之前,檢查測試中使用的數據的分佈假設。“根本”執行這樣的檢查本身就是一個潛在的嚴重問題-它肯定會對推斷產生影響。如果這是您要提到的需求,我會說有一種強烈的看法,那就是需要測試,但是幾乎總有更好的事情要做。偶爾會有很好的理由來測試合身性,但很少有這些用途。
    Arthur B.
    2015-06-10 19:17:47 UTC
    view on stackexchange narkive permalink

    對於它的價值,我曾經為截斷的正態分佈開發了快速採樣器,並且正態性測試(KS)在調試功能時非常有用。該採樣器以巨大的樣本量通過了測試,但是有趣的是,GSL的之字形採樣器沒有通過。

    AdamO
    2018-03-12 22:59:28 UTC
    view on stackexchange narkive permalink

    這裡的答案已經解決了幾個重要問題。快速總結:

    • 沒有一致的測試可以確定一組數據是否真正遵循分佈。
    • 測試不能代替目視檢查數據和模型以識別高槓桿率,高影響力的觀察結果並註釋其對模型的影響。
    • 許多回歸例程的假設通常被錯誤地引用為需要正態分佈的“數據”(殘差),並且新手統計學家將其解釋為要求分析師在進行分析之前正式從某種意義上對此進行評估。

    我首先添加一個答案,以引用我的一篇個人最常訪問和閱讀的統計文章:Lumley等人的“ 大型公共衛生數據集中正態性假設的重要性”。等值得全文閱讀。摘要指出:

    在足夠大的樣本中,t檢驗和最小二乘線性回歸不需要任何正態分佈假設。先前的模擬研究表明,“足夠大”通常小於100,即使對於我們非常非正常的醫療費用數據,也小於500。這意味著在公共衛生研究中,樣本通常大大大於此值, -test和線性模型是有用的默認工具,用於分析許多類型的數據中的差異和趨勢,而不僅僅是具有正態分佈的數據。對於正態性的正式統計檢驗尤其不可取,因為它們在分佈重要的小樣本中具有低功效,而在分佈不重要的大型樣本中具有高功效。

    雖然線性回歸的大樣本屬性已廣為人知,但對正態性假設不重要所需的樣本量的研究很少。特別是,尚不清楚所需的樣本量如何取決於模型中預測變量的數量。

    對正態分佈的關注會分散這些方法的真實假設。線性回歸的確假設結果變量的方差近似恆定,但是對這兩種方法的主要限制是,它們假定足以檢查結果變量的均值變化。如果對分佈的其他一些摘要感興趣,則t檢驗和線性回歸可能不合適。

    總結:與回答特定科學問題的重要性相比,正常性通常不值得討論或引起關注。如果希望對匯總數據中的均值差,則t檢驗和ANOVA或線性回歸在更廣泛的意義上是合理的。即使不滿足分配假設,基於這些模型的測試仍保持正確的alpha水平,儘管功率可能會受到不利影響。

    正態分佈之所以會受到關注的原因可能是出於經典原因,在這種情況下,可以獲得基於ANOVA的F分佈和T檢驗的Student-T分佈的精確檢驗。事實是,在科學的許多現代進步中,我們通常處理比以前收集的數據集更大的數據集。如果實際上是在處理一個小的數據集,那麼這些數據是正態分佈的原理就不能來自這些數據本身:根本沒有足夠的能力。我認為,對其他研究,重複甚至測量過程的生物學或科學進行評論,是討論存在於觀測數據基礎上的可能概率模型的一種更為合理的方法。

    由於這個原因,選擇基於等級的測試作為替代方案完全沒有意義。但是,我會同意,使用可靠的方差估計器(例如折刀或引導程序)提供了重要的計算替代方案,可以在各種更重要的違反模型規範的情況下進行測試,例如獨立性或這些錯誤的相同分佈。

    probabilityislogic
    2012-02-05 06:52:01 UTC
    view on stackexchange narkive permalink

    我認為最大熵方法可能在這裡有用。我們可以指定正態分佈,因為我們認為數據是“正態分佈的”(無論這意味著什麼),或者因為我們僅期望看到大約相同幅度的偏差。另外,由於正態分佈只有兩個足夠的統計量,因此它對不會更改這些數量的數據更改不敏感。因此,從某種意義上講,您可以將正態分佈視為具有相同第一矩和第二矩的所有可能分佈的“平均值”。這提供了為什麼最小二乘應該和它一樣工作的原因之一。

    很好的概念橋樑。我也同意,在這種分佈很重要的情況下,*思考*有關數據的生成方式更具啟發性。我們在混合模型擬合中應用了該原理。另一方面,濃度或比率總是偏斜的。我可以補充一點,“法線...對變化不敏感”是指形狀/比例變化不變。
    Michael R. Chernick
    2012-05-04 22:38:13 UTC
    view on stackexchange narkive permalink

    您提出的論點是一種觀點。我認為正常性測試的重要性在於確保數據不會嚴重偏離正常值。我有時會用它來決定在推理過程中使用參數測試還是非參數測試。我認為該測試對中型和大型樣本(中央極限定理不起作用)很有用。我傾向於使用Wilk-Shapiro或Anderson-Darling測試,但是運行SAS可以使它們全部獲得,並且他們通常都同意。另一方面,我認為圖形過程(例如Q-Q圖)同樣有效。正式測試的優點是客觀。在小樣本中,這些擬合優度檢驗實際上沒有任何功能,這是直覺的,因為來自正態分佈的小樣本可能偶然看起來是非正態的,這在測試中得到了說明。在小樣本中也不容易看到高偏斜度和峰度,它們將許多非正態分佈與正態分佈區分開。

    儘管可以肯定地使用它,但我認為您不會比使用QQ圖更客觀。測試的主觀部分是何時確定您的數據不正常。對於大樣本,在p = 0.05處的拒絕率可能非常高。
    預測試(如此處建議的那樣)會使整個過程的I類錯誤率無效。在解釋選擇的任何測試結果時,應考慮到已經進行了預測試的事實。更一般地,應該保留假設檢驗以檢驗一個人真正關心的無效假設,即變量之間沒有關聯。數據完全為正態的零假設不屬於此類別。
    (+1)這裡有個很好的建議。埃里克(Erik),“目標”的使用也使我感到吃驚,直到我意識到邁克爾的權利:兩個人在相同數據上正確地執行相同的測試將始終獲得相同的p值,但他們可能會以不同的方式解釋相同的Q-Q圖。來賓:感謝您提供有關I型錯誤的警告提示。但是,為什麼我們不關心數據分佈呢?通常,這是有趣且有價值的信息。我至少想知道數據是否與我的測試對它們的假設一致!
    我非常不同意。兩個人都得到相同的QQ圖和相同的p值。要解釋p值,您需要考慮樣本量和測試特別敏感的違反正常性的情況。因此,決定如何處理您的p值同樣是主觀的。您之所以喜歡p值,是因為您認為數據可以遵循理想的正態分佈-否則,p值隨樣本量下降的速度只是一個問題。而且,鑑於樣本量不錯,QQ圖看起來幾乎相同,並且在更多樣本下保持穩定。
    Erik,我同意測試結果和圖形需要解釋。但是測試結果是一個* number *,並且不會有任何爭議。但是,QQ圖允許有多種描述。儘管每個對像在客觀上都是正確的,但是選擇要注意的內容是...一種選擇。這就是“主觀”的意思:結果取決於分析人員,而不僅僅是過程本身。例如,這就是為什麼在諸如控製圖和政府法規等對“客觀性”很重要的環境中,標準基於“數字”測試和“從不”圖形結果的原因。
    令我感到驚訝的是,有人會認為正式的假設檢驗不再像研究QQ圖那樣客觀。我認為Bill Huber很好地解釋了我在反駁中會說的話。我不知道我是否可以改變Erik的主意,但我要補充一點,您要根據自己確定的顯著性水平選擇一個測試統計量和一個臨界值(選擇顯著性水平可以是傳統的選擇,例如選擇0.05或可能由您對提交I型錯誤要承擔的風險的主觀推理決定。
    所有這些都可以在收集任何數據之前完成。在那時,決定是確定的。您可以收集數據,計算測試統計量,然後如果數據超過臨界值則拒絕,如果不超過臨界值則不拒絕。您不會根據數據更改任何內容。對於QQ圖,沒有預定的規則。基本上,您是根據數據創建圖,然後根據所見即所得,即認為數據是否緊貼直線來自己決定。根據看結果的個人判斷,兩個人當然可以有所不同。
    我認為我們在這裡談論意見。然後,在我看來,教導正常性測試是檢查/拒絕正常性的客觀標準是一種不好的做法。測試的結果只是一種算法,不會告知假設正態性和向前發展的有效性。相反,Q-Q圖是明確的:您必須確定重要或不重要的內容(偏差),並讓您懷疑是否有其他替代方法可以使它看起來更好(甚至只是線性變換)。
    Michael R. Chernick
    2012-05-05 22:27:18 UTC
    view on stackexchange narkive permalink

    我認為前2個問題已得到徹底回答,但我認為第3個問題未得到解決。許多測試將經驗分佈與已知的假設分佈進行比較。 Kolmogorov-Smirnov試驗的臨界值基於完全指定的F。可以對其進行修改,以針對帶有估計參數的參數分佈進行測試。因此,如果模糊性意味著要估計兩個以上的參數,那麼問題的答案是肯定的。這些測試可以應用於3個或更多參數係列。某些測試旨在針對特定的發行版本進行測試時具有更好的性能。例如,當零假設分佈為正態時,當測試正態性時,Anderson-Darling檢驗或Shapiro-Wilk檢驗比K-S或卡方檢驗具有更大的功效。 Lillefors設計了一種適合指數分佈的測試。

    kolonel
    2014-10-25 01:00:55 UTC
    view on stackexchange narkive permalink

    我不會說這是沒有用的,但是它確實取決於應用程序。注意,您永遠不會真正知道數據的來源,而您所擁有的只是一小部分實現。您的樣本均值在樣本中始終是有限的,但對於某些類型的概率密度函數,均值可能是不確定的或無限的。讓我們考慮Levy穩定分佈的三種類型,即正態分佈,Levy分佈和Cauchy分佈。您的大多數樣本在尾部都沒有太多觀察結果(即遠離樣本均值)。因此從經驗上很難區分這三個,因此柯西(具有不確定的均值)和利維(具有無限的均值)很容易偽裝成正態分佈。

    “……從經驗上講,這是很難的……”似乎是在反對*,而不是*針對*分佈測試。在一段引言中暗示這確實存在分佈測試的用法,這很奇怪。那你真的想在這裡說什麼嗎?
    我反對這樣做,但我也要小心,不要僅僅說它沒有用,因為我不知道所有可能的情況。有許多測試取決於正態性假設。說正常性測試是無用的,實際上是在顛覆所有此類統計測試,因為您說的是不確定自己是否在使用/做正確的事情。在這種情況下,您不應該這樣做,也不應該進行很大的統計。
    謝謝。與原始答案相比,該評論中的評論似乎更專注於該問題!您可能會考慮在某個時候更新您的答案,以使您的意見和建議更加明顯。
    @whuber沒問題。您可以推薦修改嗎?
    您可能首先將答案和評論這兩個帖子結合起來,然後考慮剔除(或降級為附錄或澄清)任何可能相切的材料。例如,對未定義的引用意味著對該問題尚無明確的了解,因此仍然有些神秘。
    @whuber好吧,我將嘗試進行改進。謝謝。
    wvguy8258
    2013-12-07 22:02:42 UTC
    view on stackexchange narkive permalink
    我認為對分析重要的“某物”由高p值支持的測試是錯誤的。正如其他人指出的那樣,對於大型數據集,可以確保p值小於0.05。因此,測試本質上是針對小型模糊數據集的“獎勵”,而對於缺乏證據的情況則是“獎勵”。諸如qq繪圖之類的東西更有用。想要硬數字決定這樣的事情總是(是/不是正常/不正常)的願望,錯過了建模在某種程度上是一門藝術,而實際上是如何支持假設的。
    仍然存在一個接近正常的大樣本將具有較低的p值,而一個不接近正常的較小樣本通常將不會具有p值。我認為較大的p值不是有用的。再次,他們因缺乏證據而得到獎勵。我可以有一個包含數百萬個數據點的樣本,並且在這些測試下幾乎總是拒絕正態性假設,而較小的樣本則不會。因此,我發現它們沒有用。如果我的想法有缺陷,請在這一點上使用一些演繹性的推理來展示它。
    這根本無法回答問題。
    Hotaka
    2013-09-29 21:04:38 UTC
    view on stackexchange narkive permalink

    我沒有提到的一種很好的使用正態性測試的方法是確定使用z分數是否可以。假設您從總體中選擇了一個隨機樣本,並且希望找到從總體中選擇一個隨機個體並獲得80或更高值的概率。僅當分佈為正態時才能執行此操作,因為要使用z分數,假定人口分佈為正態。

    但是我想我也可以認為這是有爭議的...

    值什麼?均值,總和,方差,個人觀察?僅最後一個依賴於假定分佈的正態性。
    我的意思是個人
    謝謝。但是,您的答案仍然如此模糊,以至於很難說出您所指的是什麼程序,也無法評估您的結論是否有效。
    這種用法的問題與其他用法相同:測試將取決於樣本量,因此,它基本上是無用的。它不會告訴您是否可以使用z分數。


    該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 2.0許可。
    Loading...