大數據到底是什麼？

Gumeo

2015-09-18 17:10:04 UTC

view on stackexchange narkive permalink

我曾多次被問到這個問題：

什麼是大數據？

學生和親戚都在接我有關統計和ML的話題。

我找到了這個 CV-post。我覺得我同意那裡唯一的答案。

維基百科頁面也有一些評論，但是我不確定是否真的同意那裡的所有內容。

編輯： （我覺得Wikipedia頁面缺乏解釋解決此問題的方法以及我在下面提到的範例）。

我最近參加了 Emmanuel的演講Candès，他在這裡介紹了大數據范式

首先收集數據$ \ Rightarrow $稍後問問題

這是主要的與假設驅動的研究的不同之處在於，先提出假設，然後收集數據以說出一些事情。

他大量研究了量化由數據偵聽生成的假設的可靠性的問題。我從他的演講中學到的主要內容是，我們確實需要開始控制 FDR，他提出了 knockoff方法。

我認為簡歷應該對什麼是大數據以及您對它的定義有疑問。我覺得“定義” 有很多不同的地方，如果對它的組成沒有普遍的共識，很難真正掌握它的含義或向他人解釋。 / p>

我認為Candès提供的“定義/範例/描述” 是我最同意的，您對此有何看法？

EDIT2：我認為答案不僅僅應解釋數據本身。它應該是數據/方法/範式的組合。

EDIT3：我覺得對邁克爾·喬丹的這次採訪可以為表增添一些內容，例如好吧。

EDIT4 ：我決定選擇投票率最高的答案作為正確答案。儘管我認為所有答案都有助於討論，但我個人認為這更多地是我們如何生成假設並使用數據的範例問題。我希望這個問題可以為那些尋找大數據的人提供參考。我希望可以更改Wikipedia頁面，以進一步強調多重比較問題和FDR的控制。

“大數據就像十幾歲的性行為：每個人都在談論它，沒有人真正知道如何做，每個人都認為其他人正在做，所以每個人都聲稱自己正在做。”西蒙·馬修斯

此報價不再有效。人們最近正在創作許多非凡的作品。如果您看一下Kaggle上的比賽，公司正在改善他們的業務，並且通過花很多錢來賺很多錢。大數據應用的其他示例可以在以下位置找到：https://www.linkedin.com/pulse/20131113065157-64875646-the-awesome-ways-big-data-is-used-today-to-change-our-世界

@XuanQuangDO,我同意。不要認真對待這個報價。

我認為我仍會在某些時候使用此報價來進行漫畫般的救濟，我認為它是金色的，並且很好地描繪了人們在嬰儿期對大數據的看法。

相關：[大數據有多大？]（http://datascience.stackexchange.com/q/19/843）

-1

@XuanQuangDO Kaggle可能不是一個很好的例子：它受到了打擊[最近出現了一些非常嚴重的問題]（http://www.wired.com/2015/02/data-science-darling-kaggle-cuts-one-third-staff/），顯然部分是因為公司發現Kaggle競賽獲勝算法通常在實踐中沒有用（似乎讓人想起[netflix獎]的鬧劇（https://www.techdirt.com/blog/innovation/articles/20120409/03412518422/why-netflix-never-implemented-algorithm-won-netflix-1million-challenge.shtml））。

[大數據就是崩潰的Excel。]（https://twitter.com/devops_borat/status/288698056470315001500）-DevOps Borat

恕我直言，大數據只是創造一個術語來說明何時您有太多數據無法運行您的老式傳統SQL查詢。

大數據是如此之大，以至於傳統的數據處理架構無法正常工作。Google表示您可以映射/縮小它。現在您想像Google一樣，不是嗎？由於成為Google的貪婪夢想，它成為了Big Dada。專家們把它說成是90年代的“新經濟”。大達達=淘金熱。

對我來說，這似乎是一個很好的話題。也許應該是CW（但隨後也可能不是）。

我遇到的很多非技術人員都將“大數據”視為具有大量數據的任何事物-即，電子表格的屏幕數不勝數！他們不知道如何分析數據，因此任何人都無法處理成千上萬的行和數十個變量-因此在他們眼中，這就是“大數據”。然後，他們希望以“大數據”標籤出售他們的公司！作為具有CS和Stats背景的人，這當然是胡說八道並且數據很少。