我們經常聽到計算機科學中的項目管理和設計模式,但是在統計分析中卻很少見。但是,看來設計有效而持久的統計項目的決定性步驟是使事情井井有條。
我經常提倡使用R和在單獨的文件夾(原始數據文件,轉換的數據文件,R腳本,圖形,註釋等)中一致的文件組織。採用這種方法的主要原因是,以後進行分析(例如,當您忘記瞭如何巧生成給定圖時)可能會更容易。
最佳實踐是什麼?統計項目管理,還是您想根據自己的經驗提出建議?當然,這適用於任何統計軟件。 (請每個帖子一個答案)
我們經常聽到計算機科學中的項目管理和設計模式,但是在統計分析中卻很少見。但是,看來設計有效而持久的統計項目的決定性步驟是使事情井井有條。
我經常提倡使用R和在單獨的文件夾(原始數據文件,轉換的數據文件,R腳本,圖形,註釋等)中一致的文件組織。採用這種方法的主要原因是,以後進行分析(例如,當您忘記瞭如何巧生成給定圖時)可能會更容易。
最佳實踐是什麼?統計項目管理,還是您想根據自己的經驗提出建議?當然,這適用於任何統計軟件。 (請每個帖子一個答案)
我正在整理一系列在 SO(由@Shane建議), Biostar(此後稱為BS)和該SE上找到的快速指南。我盡力確認每個項目的所有權,並選擇第一個或被高度評價的答案。我還添加了自己的東西,並標記了特定於[R]環境的項目。
數據管理
編碼)進行數據流>
分析
版本化
編輯/報告
作為旁注,Hadley Wickham提供了 R項目管理的全面概述,包括可再現的示例和統一的數據哲學。
最後,在他面向R的統計數據分析工作流中,Oliver Kirchkamp提供了關於為什麼採用和服從特定的工作流程將幫助統計人員與每個其他她,同時確保數據完整性和結果的可重複性。它還包括有關使用編織和版本控制系統的一些討論。 Stata用戶可能會發現J. Scott Long的使用Stata進行數據分析的工作流程也很有用。
這沒有專門提供答案,但是您可能需要查看以下相關的stackoverflow問題:
您可能還對 John Myles White的最新作品感興趣項目以創建統計項目模板。
這與Shane的回答重疊,但是在我看來,有兩個主要方面:
van Belle是成功統計項目規則的來源。
只有我的2美分。我發現Notepad ++對此很有用。我可以為每個項目維護單獨的腳本(程序控制,數據格式等)和一個.pad文件。 .pad文件調用是與該項目關聯的所有腳本。
雖然其他答案很好,但我要補充一點看法:避免使用SPSS。我用SPSS做碩士論文,現在從事市場研究工作。
在使用SPSS時,開發有組織的統計代碼非常困難,因為SPSS不好處理多個文件(當然,您可以處理多個文件,但並不像R那樣痛苦) ),因為您無法將數據集存儲到變量中-您必須使用“數據集激活x”-代碼,這很麻煩。另外,語法笨拙,並且鼓勵使用簡寫形式,這使得代碼更加難以閱讀。
與R / Python / Matlab / etc一起使用的Jupyter Notebooks消除了記住哪個腳本生成特定圖形的麻煩。這篇文章描述了一種使代碼和圖形彼此並排的整潔方法。將論文或論文章節的所有數據都保存在一個筆記本中,可以很容易地找到相關代碼。
實際上更好,因為您可以滾動瀏覽多個圖來查找所需的圖。該代碼將一直隱藏,直到需要它為止。