“現代”統計的經驗法則

題:

“現代”統計的經驗法則

chl

2010-09-16 15:21:37 UTC

view on stackexchange narkive permalink

我喜歡G van Belle關於統計經驗法則的書，並在較小程度上喜歡Phillip I Good和統計學中的常見錯誤（以及如何避免它們）。詹姆斯·W·哈丁（James W. Hardin）。當解釋實驗和觀察研究的結果時，它們解決了常見的陷阱，並為統計推斷或探索性數據分析提供了實用建議。但是我感到有些缺乏“現代”指南，尤其是在各個領域對計算和健壯統計數據的使用日漸增長，或者例如在機器學習社區中引入了機器學習技術的情況下。臨床生物統計學或遺傳流行病學。

除了可以在其他地方解決的數據可視化中的計算技巧或常見陷阱之外，我想問一下：您建議提高效率的最佳經驗法則是什麼數據分析？（每個答案一個規則，請）。

我正在考慮您可能會提供給沒有統計學背景的研究人員的同事的指導原則建模或中級到高級課程的學生。這可能與數據分析的各個階段有關，例如採樣策略，特徵選擇或模型構建，模型比較，後估計等。

24 答案:

onestop

2010-09-16 17:57:27 UTC

view on stackexchange narkive permalink

在開始分析之前，請不要忘記進行一些基本數據檢查。特別是，請查看您要分析的每個變量與ID號，數據收集的日期/時間或類似數據的散點圖。當匯總統計數據未顯示任何異常情況時，眼睛通常會發現會顯示問題的模式。而且，如果您要使用對數或其他變換進行分析，也可以將其用於繪圖。

我很難學到這一點。兩次。

是!三思而後行。請查看數據。

如果事後做出決定，則對數據進行目視檢查可以使類型I錯誤膨脹。我傾向於進行預先確定的驗證性分析，並把那些受檢查影響的結果作為探索性或敏感性分析。

Stephan Kolassa

2010-09-18 23:15:49 UTC

view on stackexchange narkive permalink

保持分析可重複。審稿人，您的老闆或其他人最終會問您，您得出結果的準確程度如何-大概在您進行分析後六個月或更長時間。您將不會記住您如何清理數據，進行了哪些分析，為什麼選擇了所使用的特定模型...而重建所有這些都是很痛苦的。

推論：使用某種腳本語言，在分析腳本中添加註釋，並保留它們。使用的內容（R，SAS，Stata等）不如具有完全可複制的腳本重要。拒絕不可能或尷尬的環境。

如果您要使用R，建議您將R代碼嵌入生成報告的Sweave文檔中。這樣，R代碼將保留在報告中。

user88

2010-09-16 17:08:08 UTC

view on stackexchange narkive permalink

沒有免費的午餐

大部分統計失敗都是通過單擊名為“計算重要性”的閃亮大按鈕創建的，而沒有考慮其隱藏假設的負擔。

重複

即使涉及到對隨機數生成器的一次調用，也可能會遇到運氣或運氣不好，因此得出錯誤的結論。

Stephan Kolassa

2010-09-19 02:07:17 UTC

view on stackexchange narkive permalink

每個答案一個規則；-）

在進行研究之前與統計學家交談。如果可能，在申請贈款之前。幫助他/她了解您正在研究的問題，獲得有關如何分析將要收集的數據的意見，並考慮這對您的研究設計和數據要求意味著什麼。也許統計人員/女孩建議做一個分層模型來說明誰診斷了患者-然後您需要跟踪誰診斷了誰。聽起來微不足道，但在收集數據（而不收集關鍵數據）之前要比在事後要好得多。

在相關說明中：在開始之前進行功率分析。沒有為沒有足夠大的樣本預算而感到沮喪。在考慮您期望的效果大小時，請記住出版偏見-您要找到的效果大小可能會比（有偏見的）文獻所期望的要小。

Rob Hyndman

2010-09-16 18:13:11 UTC

view on stackexchange narkive permalink

我告訴學生們的一件事是為每個p值生成一個合適的圖。例如，散點圖是否測試相關性；並排箱線圖是否進行單向方差分析等。

Jeromy Anglim

2010-09-17 14:40:03 UTC

view on stackexchange narkive permalink

如果要在兩種分析數據的方法之間做出選擇，請嘗試兩種方法，看看它們是否有所不同。

在許多情況下這很有用：

轉換或不轉換
非參數或參數檢驗
Spearman或Pearson的相關性
PCA或因子分析
是否使用算術平均值或均值的可靠估計
是否包括協變量
是否使用按列表刪除，請配對-明智的刪除，插補或其他一些缺失值替換的方法

這不應免除人們對問題的思考，但至少可以使人們對實質性發現的程度有所了解對於選擇來說很可靠。

這是報價嗎？我只是想知道嘗試其他測試程序（而不是分析策略！）如何在某種程度上不會破壞對I型錯誤或初始功率計算的控制。我知道SAS系統地返回參數和非參數測試的結果（至少在均值和ANOVA的兩個樣本比較中），但是我總是覺得很有趣：我們在看到結果之前不應該決定應該應用哪種測試嗎？

@chl好點。我同意以上的經驗法則可以用於錯誤的原因。即，以多種方式嘗試事物，並且僅報告給出更令人愉悅答案的結果。我認為，經驗法則可用作數據分析師培訓工具，以了解分析決策對實質性結論的影響。我已經看到許多學生迷失了決策，特別是在文獻中存在相互競爭的建議（例如，轉換或不轉換）時，這些建議通常對實質性結論的影響很小。

@chl不，這不是報價。但是我認為最好將經驗法則與其原理和警告區分開來。為了清楚起見，我將其更改為粗體。

好吧，嘗試不同的轉換對我來說很有意義，看看它是否可以提供一種更好的方式來說明所研究的關係；我不理解的是嘗試不同的分析策略，儘管這是當前的做法（但尚未在已發表的文章中進行報導：-），尤其是。當它們依賴於不同的假設時（在EFA與PCA中，您會假設一個額外的誤差項；在非參數與參數測試中，您會捨棄部分假設等）。但是，我同意探索性分析和確認性分析之間的界線不是很清楚。

在我看來，這僅對探索性分析或培訓和驗證步驟有用。您將始終需要最後的驗證測試步驟，否則，您可能會因某些重要結果而矇騙自己，一旦您達到預期的差異（根據您的“主觀”信念），這些結果就可以很好地工作。誰來判斷哪種方法更好？我個人而言，如果我懷疑不同的方法，那麼我將在模擬數據上對其進行測試，以測試諸如估計量方差或魯棒性等問題。

shabbychef

2010-09-17 02:32:16 UTC

view on stackexchange narkive permalink

查詢您的數據。在現代廉價RAM時代，我們經常處理大量數據。一個“胖手指”錯誤或“失去小數位數”很容易成為分析的主導。如果不進行一些基本的健全性檢查（或按照此處其他人的建議來繪製數據），則會浪費大量時間。這還建議使用一些基本技術來增強對異常值的“魯棒性”。

結果：查看是否有人將缺失值編碼為“ 9999”而不是“ NA”。如果您的軟件按面值使用此值，則會使您的分析混亂。

2010-09-17 03:39:17 UTC

view on stackexchange narkive permalink

使用可顯示從原始數據到最終分析/結果的編程邏輯鏈的軟件。避免使用像Excel這樣的軟件，因為一個用戶可以在一個單元格中檢測到無法檢測到的錯誤，而這種錯誤只能手動檢查。

[VisTrails]（http://www.vistrails.org）是一個有助於此過程的系統。（我僅使用自製系統；共同的群體目標比特定的工具更重要。）

suncoolsu

2010-09-16 17:15:46 UTC

view on stackexchange narkive permalink

可能有很長的列表，但僅舉幾例：（無特定順序）

P值不是概率。具體而言，這不是犯I類錯誤的可能性。同樣，配置項對給定數據也沒有概率解釋。它們適用於重複實驗。
在實踐中，與方差相關的問題大多數時候都在偏見中占主導地位，因此，方差小的偏倚估計值比方差大的無偏估計要好（大部分時間）。
模型擬合是一個迭代過程。在分析數據之前，請了解數據源以及適合或不符合描述的可能模型。另外，請嘗試對模型中的任何設計問題進行建模。
在分析數據之前，請使用可視化工具查看數據（可能的異常，明顯的趨勢等以了解數據）。使用可視化方法（如果可能的話）來查看模型如何適合該數據。
最後但並非最不重要的一點，請使用統計軟件來進行建模（您的計算任務更加輕鬆），它們不能替代人類的思維。

您的項目1是不正確的：P值是在假設為零的前提下，獲取數據的可能性為極值或更高值。據我所知，這意味著P是一個概率，雖然是有條件的，但仍然是概率。在以下情況下，您的說法是正確的：一個人在Neyman-Pearson錯誤範式下工作，而在費舍爾範式下工作，其中P值是反對原假設的證據。的確，這些範式定期混入不連貫的糊狀食物中，但是當單獨使用且完整時，兩者都是“正確的”。

同樣，對於置信區間，您只能在Neymanian置信區間的範圍內進行校正。費舍爾（以及他之前的其他人）也設計並使用了一些可以解釋為置信區間的東西，並且這種區間的完全有效解釋是指產生該區間的特定實驗。在我看來，它們比內曼的更為可取。參見我對問題的回答離散函數：置信區間覆蓋率？有關更多詳細信息，請訪問：http://stats.stackexchange.com/questions/8844/discrete-functions-confidence-interval-coverage/8860#8860

@Michael您是正確的，但讓我們看看：Null正確多少次？或者更好：有人可以證明null是否正確嗎？我們也可以對此進行深入的哲學辯論，但這不是重點。在質量控制中，重複是有意義的，但是在科學中，任何好的決定規則都必須是條件數據。

Fisher知道這一點（根據觀察到的數據以及有關質量控制的評論就是基於此）。他以此為基礎提出了許多反例。可以說，貝葉斯一直在為此奮鬥超過半個世紀。

-1

@Michael對不起，如果我不夠清楚。我只想說：當null為true時，P值是概率_ONLY_，但是在大多數情況下null為_NOT_ true（例如：我們從不期望$ \ mu = 0 $為true；我們假設它為是的，但是我們的假設實際上是錯誤的。）如果您有興趣，我可以指出一些文獻來詳細討論這個想法。

@Michael這是上面段落的另一種表達方式：假設我們要回答相關問題，例如通過後驗概率評估假設，答案是“根據觀察到的數據，該假設成立的概率是多少？” （這是我們在科學中大部分時間都想做的），而不是常問的p值，後者回答了一個問題：“如果這個假設是正確的（可能不是），觀察到更多的概率是多少？極端數據（我們沒有）？” （沃爾珀特博士聲明的修改形式）

p值是機率，更具體地說是假設機率（如果原假設為真）。因此，可以肯定的是，它們是犯下I型錯誤的概率/頻率，這與$ H_0 $為真的假設（有條件）情況有關。確實，當$ H_0 $為* not * true時，觀察到數據被我們拒絕$ H_0 $跨越邊界的概率將有所不同。經驗法則1並不能很好地闡明這一點。

probabilityislogic

2011-01-16 19:48:54 UTC

view on stackexchange narkive permalink

總是問自己“這些結果是什麼意思，以及將如何使用它們？”

通常，使用統計信息的目的是幫助不確定性下的決策。因此，擺在眼前的是很重要的：“根據此分析將做出哪些決策，以及該分析將如何影響這些決策？” （例如，發表文章，推薦使用一種新方法，向Y提供$ X的資金，獲取更多數據，將估計數量報告為E等，等等.....）

如果覺得自己沒有做出任何決定，然後一個人想知道為什麼要首先進行分析（因為進行分析非常昂貴）。我認為統計是一種“麻煩”，因為它是達到目的的手段，而不是目的本身。在我看來，我們僅對不確定性進行量化，以便我們可以使用它來做出精確地解釋這種不確定性的決策。

我認為，這就是為什麼使事情簡單化通常是一個好的政策的原因之一，因為將一個簡單的解決方案與現實世界（並因此而做出決策的環境）聯繫起來通常比複雜的解決方案容易得多。通常也更容易理解簡單答案的局限性。在了解了簡單解決方案的局限性以及復雜解決方案的局限性之後，您便轉向了更複雜的解決方案。

除了保持簡單的想法外，我都同意。對我而言，簡單性或複雜性應該是您雄辯地解釋了不正確的決策成本的函數。簡單性在一個方面的成本可以忽略不計（例如，向客戶投放錯誤的廣告），而在另一方面的成本卻截然不同（對患者進行錯誤的治療）。

pmgjones

2010-09-17 03:36:18 UTC

view on stackexchange narkive permalink

對於數據組織/管理，請確保在數據集中生成新變量時（例如，根據身高和體重計算體重指數），永遠不要刪除原始變量。從可重現性的角度來看，非破壞性方法是最好的。您永遠不知道什麼時候可能會誤輸入命令，隨後需要重做變量生成。沒有原始變量，您將浪費很多時間！

Jason Morgan

2011-04-10 19:26:46 UTC

view on stackexchange narkive permalink

考慮困難有關基礎數據生成過程（DGP）。如果要使用的模型不能反映DGP，則需要查找新模型。

您怎麼知道，您怎麼知道DGP是什麼。例如，我在一個尚未開發完善的理論（為什麼某些類型的公共支出發生）的地區運行時間序列。我認為在這種情況下不可能知道真正的過程。

doug

2010-09-19 00:49:38 UTC

view on stackexchange narkive permalink

對於直方圖，對於直方圖中的bin個數是一個很好的經驗法則：

數據點數的平方根

robin girard

2010-11-02 18:02:40 UTC

view on stackexchange narkive permalink

在預測問題中（即，當您需要根據給定的$（Y_t，X_t）$ $ t>T $來預測$ Y_ {t + h} $，並使用學習集$ （Y_1，X_1），\點，（Y_T，X_T）$），則是經驗法則（必須在進行任何復雜建模之前完成）

氣候學 （$ Y_ {t + h} $通過學習集中的平均觀測值預測，可能是通過去除明顯的周期性模式來預測的）
持續性（$ Y_ {t + h}根據最後觀察值預測的$：$ Y_t $）。

作為最後一個簡單的基準/經驗法則，我現在經常在以下地方使用randomForest（$ Y_ {t + h} $〜$ Y_t + X_t $，data = learningSet） R軟件。它為您（用R中的2行代碼）提供了一個無需任何建模即可實現的初衷。

Nick Cox

2016-08-05 20:00:13 UTC

view on stackexchange narkive permalink

儘管數據集越來越大，軟件功能越來越強大，但是過擬合模型對研究人員尤其是那些尚未因過擬合而被淘汰的研究人員構成了重大威脅。過度擬合意味著您已經擬合了比數據和最新技術更複雜的內容。像愛情或美麗一樣，很難定義，更不用說正式定義了，但是更容易識別。

最小經驗法則是，對於像經典回歸之類的任何估計參數，每個參數都需要10個數據點，如果忽略它，請注意後果。對於其他分析，通常需要做更多工作才能做好工作，尤其是在數據中包含稀有類別的情況下。

即使您可以輕鬆地擬合模型，也應不斷擔心其含義以及即使是非常相似的數據集也可以復制多遠。

對於響應條件正常的模型，通常將其視為經驗法則。在其他情況下，它過於寬鬆。例如，對於二進制分類，相應的經驗法則是在每個變量的較不常見類別中進行15次觀察；對於生存分析，每個變量將是10個*事件*（即未經審查的數據）。

我同意。我將進行編輯，但為什麼不發布您自己的經驗法則以及更多評論。

您應突出顯示最後一句話**“即使您可以輕鬆地擬合模型，也應不斷擔心其含義以及即使是非常相似的數據集也可以復制多遠。” **

Andy

2013-06-17 23:33:36 UTC

view on stackexchange narkive permalink

在工具變量回歸中，始終檢查工具的聯合意義。 Staiger-Stock的經驗法則表示F統計量小於10令人擔憂，表明您的工具可能很弱，即它們與內生變量的相關性不足。但是，這並不自動表示F大於10可以保證強大的工具。 Staiger and Stock（1997）表明，如果“小”樣本中的工具變量技術與內生變量之間的相關性很弱，則它們可能會出現嚴重偏差。他們的例子是Angrist和Krueger（1991）進行的研究，該研究有300,000多個觀測值，這是一個關於“小”樣本概念的令人不安的事實。

我已經在文章中添加了鏈接，但是我相信這個答案還需要進一步的格式化，我發現基於快速瀏覽文章來強調“經驗法則”太困難了，而且這個答案也不是很直觀。

Nick Cox

2016-08-05 20:04:59 UTC

view on stackexchange narkive permalink

如果模型無法輕鬆快速地收斂，則可能是軟件故障。但是，更常見的情況是您的數據不適合該模型或該模型不適合該數據。很難說出哪個，經驗主義者和理論家可能會有不同的看法。但是，主題思考，真正地查看數據以及不斷地思考模型的解釋都可以提供最大的幫助。最重要的是，如果復雜的模型無法收斂，請嘗試使用更簡單的模型。

在進行多次迭代之後，但在模型真正收斂之前，強制收斂或宣告勝利並取得結果並沒有任何好處。如果這樣做的話，充其量只能是愚弄自己。

“真正地查看數據”，當我們得到一個能夠為我們完成這項工作的神經網絡時，它真是太好了。

它被稱為JWT。

Nick Cox

2016-08-05 20:09:14 UTC

view on stackexchange narkive permalink

沒有選擇信息條件的條件。

一旦有人說出類似“？IC表示這一點，但通常會給出錯誤的結果”（其中，？是您喜歡的任何字母），您就會知道您也必須考慮關於模型，尤其是模型是否具有科學或實踐意義。

沒有代數可以告訴你。

colorlace

2018-06-29 02:57:58 UTC

view on stackexchange narkive permalink

我在某個地方讀到了它（可能是經過交叉驗證的），但在任何地方都找不到，所以這裡...

如果您發現了有趣的結果，則可能是錯誤的。

很容易被令人震驚的p值或接近完美的交叉驗證錯誤的前景所激發。我個人狂喜地向同事們展示了很棒的（錯誤的）結果，而只需要收回它們。多數情況下，如果看起來好得令人難以置信...

保持真實。'完全是真的。

Jørgen Hilden

2019-04-13 02:13:31 UTC

view on stackexchange narkive permalink

嘗試變得英勇而不是道德也就是說，不要讓非正常，非獨立或非線性等小符號阻礙您的道路，如果需要忽略此類指示以使數據說話大聲而清晰。 -在丹麥語中，“ dristig”與“ dydig”是形容詞。

Alexis

2019-04-13 02:39:33 UTC

view on stackexchange narkive permalink

分析縱向數據時，請務必檢查每個時間段內變量的編碼方式是否相同.

在撰寫我的論文時，需要對輔助數據進行分析，但是平均抑鬱指數在一年之前的平均穩定得分出現了1個單位的偏移，而這一變化本來要穩定一周左右：事實證明，其中一個在我的數據集中已有十年的時間了，經過驗證的儀器的刻度項目已編碼為1-4，而不是0-3。

Alexis

2019-04-13 02:45:52 UTC

view on stackexchange narkive permalink

您的假設應該驅動您選擇模型，而不是反過來。

用馬斯洛的話解釋一下，如果您是一把錘子，那麼一切看起來都像釘子。特定的模型帶有盲目性和對內置世界的假設：例如非動態模型會阻塞治療結果反饋。

Alexis

2019-04-13 02:50:24 UTC

view on stackexchange narkive permalink

使用仿真來檢查模型的結構可能在何處創建“結果”，這些結果只是模型假設的數學假象

對重新隨機變量或模擬變量已知彼此不相關進行分析。這樣做是否多次，並將平均點估計值（以及置信度或可信區間）與您從實際數據中獲得的結果進行對比：它們是否全部不同？

user54285

2019-04-13 03:15:09 UTC

view on stackexchange narkive permalink

我是數據分析師而不是統計學家，但這是我的建議。

1）在分析數據之前，請確保您的方法假設正確。一旦看到結果，即使解決問題並改變結果，也很難忘記它們。

2）有助於了解您的數據。我運行時間序列，得出的結果與最近幾年的數據相比毫無意義。鑑於此，我對方法進行了審查，發現該方法中模型的平均值在一段時間內扭曲了結果（並且發生了結構破壞）。

3）注意經驗法則。它們從各自的數據反映了各個研究人員的經驗，如果他們的領域與您的領域大不相同，那麼他們的結論可能對您的數據不正確。而且，這令我震驚，統計學家經常在關鍵點上意見分歧。

4）嘗試用不同的方法分析數據，看看結果是否相似。了解沒有一種方法是完美的，請仔細檢查何時可以違反這些假設。

ⓘ

該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到，我們感謝它分發的cc by-sa 2.0許可。

关于 - 法律