我曾多次被問到這個問題:
什麼是大數據?
學生和親戚都在接我有關統計和ML的話題。
我找到了這個 CV-post。我覺得我同意那裡唯一的答案。
維基百科頁面也有一些評論,但是我不確定是否真的同意那裡的所有內容。
編輯: (我覺得Wikipedia頁面缺乏解釋解決此問題的方法以及我在下面提到的範例)。
我最近參加了 Emmanuel的演講Candès,他在這裡介紹了大數據范式
首先收集數據$ \ Rightarrow $稍後問問題
這是主要的與假設驅動的研究的不同之處在於,先提出假設,然後收集數據以說出一些事情。
他大量研究了量化由數據偵聽生成的假設的可靠性的問題。我從他的演講中學到的主要內容是,我們確實需要開始控制 FDR,他提出了 knockoff方法。
我認為簡歷應該對什麼是大數據以及您對它的定義有疑問。我覺得“定義” 有很多不同的地方,如果對它的組成沒有普遍的共識,很難真正掌握它的含義或向他人解釋。 / p>
我認為Candès提供的“定義/範例/描述” 是我最同意的,您對此有何看法?
EDIT2:我認為答案不僅僅應解釋數據本身。它應該是數據/方法/範式的組合。
EDIT3:我覺得對邁克爾·喬丹的這次採訪可以為表增添一些內容,例如好吧。
EDIT4 :我決定選擇投票率最高的答案作為正確答案。儘管我認為所有答案都有助於討論,但我個人認為這更多地是我們如何生成假設並使用數據的範例問題。我希望這個問題可以為那些尋找大數據的人提供參考。我希望可以更改Wikipedia頁面,以進一步強調多重比較問題和FDR的控制。