許多統計工作要求獲得有關大規模數據的經驗。處理大型數據集需要哪些統計和計算技能。例如,在給定包含一千萬個樣本的數據集的情況下,如何構建回歸模型?
許多統計工作要求獲得有關大規模數據的經驗。處理大型數據集需要哪些統計和計算技能。例如,在給定包含一千萬個樣本的數據集的情況下,如何構建回歸模型?
好的答案已經出現。因此,我將根據個人經驗分享一些想法:根據需要使相關想法適應您的情況。
對於背景和背景-您可以考慮任何個人這種信息可能會產生偏見-我的大部分工作一直在幫助人們根據相對較小的數據集做出重要決策。它們之所以很小,是因為收集數據的成本可能很高(例如,地下水監測井的第一個樣本需要1萬美元,而分析異常化學物質則需要數千美元)。我習慣於從可用數據中獲取盡可能多的信息,將其探索至死,並在必要時發明新的方法來對其進行分析。但是,在過去的幾年中,我一直從事一些相當大的數據庫的工作,例如在普查數據塊級別(850萬條記錄,300個字段)覆蓋整個美國的社會經濟和工程數據之一,以及各種大型GIS數據庫(
擁有非常龐大的數據集,人們的整個方法和思維方式都會發生變化。現在有太多數據需要分析。一些直接的(以及回顧的)明顯的影響(著重於回歸建模)包括
您認為進行的任何分析都會花費大量的時間和計算量。您將需要開發二次採樣方法並處理部分數據集,以便在使用整個數據集進行計算時可以規劃工作流程。 (子採樣可能會很複雜,因為您需要與整個數據集一樣豐富的代表性數據子集。並且不要忘記使用保留的數據對模型進行交叉驗證。)
您的大部分時間都花在只是移動數據並重新格式化它們上。您需要處理大型數據庫的技能,以及匯總和繪製大量數據的技能。 ( Tufte的Small Multiple在這裡脫穎而出。)
某些您喜歡的軟件工具將會失敗。例如,忘記電子表格。許多開放源代碼和學術軟件都不能完全處理大型數據集:處理將永遠花費,否則軟件將崩潰。期望這一點並確保您有多種方式來完成關鍵任務。
幾乎所有運行的統計測試都將如此強大,以至於幾乎可以肯定確定“重大”效果。 您必須更加關注統計上的重要性 ,而不是重要性。
類似地,模型選擇很麻煩,因為幾乎所有變量和您可能考慮的任何交互作用都將顯得很重要。 您必須更多地關注選擇分析的變量的有意義 。
信息以識別變量的適當非線性變換。知道怎麼做。
您將有足夠的數據來檢測非線性關係,趨勢變化,不穩定,異方差等。
>您將永遠不會完成。有太多數據,您可以永遠研究它們。因此,重要的是要一開始就建立分析目標,並始終牢記在心。
我將以簡短軼事結尾這說明與較小的數據集相比,使用大型數據集的回歸建模之間存在一個意外的差異。在具有人口普查數據的項目結束時,我開發的回歸模型需要在客戶端的計算系統中實現,這意味著在關係數據庫中編寫SQL代碼。這是一個常規步驟,但是數據庫程序員生成的代碼涉及數千行SQL。這幾乎不可能保證它沒有錯誤-儘管我們可以檢測到錯誤(它在測試數據上給出了不同的結果),但是找到它們是另一回事。 (您所需要的只是一個係數中的印刷錯誤...)解決方案的一部分是編寫一個程序,該程序直接從模型估計中生成SQL命令。這確保了從統計信息包中出來的正是RDBMS中輸入的內容。另外,編寫此腳本花費了幾個小時,從而替代了可能需要數週的SQL編碼和測試。這只是統計學家能夠傳達其結果的意義的一小部分。
您的問題應該給出一些好的答案。這是一些起點。
一種能夠在精度和對計算能力的需求之間進行權衡的功能。
具有數據挖掘技術的設施,可用作進行回歸之前的初步篩選工具。例如,chaid,car或神經網絡。
對統計意義和實際意義之間的關係有深刻的理解。各種各樣的變量選擇方法。
交叉驗證的本能。
必須具備良好的編程技能。您需要能夠編寫能夠處理大量數據而不會阻塞的高效代碼,並且可能能夠並行處理所述代碼,以使其在合理的時間內運行。
我還要補充一點,大規模數據還引入了潛在的“不良數據”問題。不僅丟失數據,而且接觸過數據的每個系統部件都會引入數據錯誤和不一致的定義。因此,除了統計技能之外,您還需要成為專家級的數據清理人員,除非其他人正在為您這樣做。
-拉爾夫·溫特斯