題:
大數據到底是什麼?
Gumeo
2015-09-18 17:10:04 UTC
view on stackexchange narkive permalink

我曾多次被問到這個問題:

什麼是大數據?

學生和親戚都在接我有關統計和ML的話題。

我找到了這個 CV-post。我覺得我同意那裡唯一的答案。

維基百科頁面也有一些評論,但是我不確定是否真的同意那裡的所有內容。

編輯: (我覺得Wikipedia頁面缺乏解釋解決此問題的方法以及我在下面提到的範例)

我最近參加了 Emmanuel的演講Candès,他在這裡介紹了大數據范式

首先收集數據$ \ Rightarrow $稍後問問題

這是主要的與假設驅動的研究的不同之處在於,先提出假設,然後收集數據以說出一些事情。

他大量研究了量化由數據偵聽生成的假設的可靠性的問題。我從他的演講中學到的主要內容是,我們確實需要開始控制 FDR,他提出了 knockoff方法。

我認為簡歷應該對什麼是大數據以及您對它的定義有疑問。我覺得“定義” 有很多不同的地方,如果對它的組成沒有普遍的共識,很難真正掌握它的含義或向他人解釋。 / p>

我認為Candès提供的“定義/範例/描述” 是我最同意的,您對此有何看法?

EDIT2:我認為答案不僅僅應解釋數據本身。它應該是數據/方法/範式的組合。

EDIT3:我覺得對邁克爾·喬丹的這次採訪可以為表增添一些內容,例如好吧。

EDIT4 :我決定選擇投票率最高的答案作為正確答案。儘管我認為所有答案都有助於討論,但我個人認為這更多地是我們如何生成假設並使用數據的範例問題。我希望這個問題可以為那些尋找大數據的人提供參考。我希望可以更改Wikipedia頁面,以進一步強調多重比較問題和FDR的控制。

“大數據就像十幾歲的性行為:每個人都在談論它,沒有人真正知道如何做,每個人都認為其他人正在做,所以每個人都聲稱自己正在做。”西蒙·馬修斯
此報價不再有效。人們最近正在創作許多非凡的作品。如果您看一下Kaggle上的比賽,公司正在改善他們的業務,並且通過花很多錢來賺很多錢。 大數據應用的其他示例可以在以下位置找到:https://www.linkedin.com/pulse/20131113065157-64875646-the-awesome-ways-big-data-is-used-today-to-change-our-世界
@XuanQuangDO,我同意。不要認真對待這個報價。
我認為我仍會在某些時候使用此報價來進行漫畫般的救濟,我認為它是金色的,並且很好地描繪了人們在嬰儿期對大數據的看法。
相關:[大數據有多大?](http://datascience.stackexchange.com/q/19/843)
-1
@XuanQuangDO Kaggle可能不是一個很好的例子:它受到了打擊[最近出現了一些非常嚴重的問題](http://www.wired.com/2015/02/data-science-darling-kaggle-cuts-one-third-staff/),顯然部分是因為公司發現Kaggle競賽獲勝算法通常在實踐中沒有用(似乎讓人想起[netflix獎]的鬧劇(https://www.techdirt.com/blog/innovation/articles/20120409/03412518422/why-netflix-never-implemented-algorithm-won-netflix-1million-challenge.shtml))。
[大數據就是崩潰的Excel。](https://twitter.com/devops_borat/status/288698056470315001500)-DevOps Borat
恕我直言,大數據只是創造一個術語來說明何時您有太多數據無法運行您的老式傳統SQL查詢。
大數據是如此之大,以至於傳統的數據處理架構無法正常工作。Google表示您可以映射/縮小它。現在您想像Google一樣,不是嗎?由於成為Google的貪婪夢想,它成為了Big Dada。專家們把它說成是90年代的“新經濟”。大達達=淘金熱。
對我來說,這似乎是一個很好的話題。也許應該是CW(但隨後也可能不是)。
我遇到的很多非技術人員都將“大數據”視為具有大量數據的任何事物-即,電子表格的屏幕數不勝數!他們不知道如何分析數據,因此任何人都無法處理成千上萬的行和數十個變量-因此在他們眼中,這就是“大數據”。然後,他們希望以“大數據”標籤出售他們的公司!作為具有CS和Stats背景的人,這當然是胡說八道並且數據很少。
十 答案:
Chris C
2015-09-18 17:15:57 UTC
view on stackexchange narkive permalink

我很高興參加RStudio著名的Hadley Wickham博士的演講。他這樣定義

  • 大數據:無法容納在一台計算機上的內存:> 1 TB
  • 中型數據:可以容納在服務器的內存中:10 GB -1 TB
  • 小數據:適合筆記本電腦的內存:< 10 GB

Hadley還認為,大多數數據至少可以減少為可管理的問題,並且實際上只有很少量是真正的大數據。他將其稱為“大數據幻影”。

  • 90%可以通過子集/採樣/匯總減少為中小型數據問題
  • 9%可以減少為大量的小數據問題
  • 1%不可避免地大

可以在此處找到幻燈片。

我認為他提出的海市rage樓也應包括在其中。
@GuðmundurEinarsson,我剛剛對其進行了編輯,謝謝您的建議。
雖然我認為沒有明確的界限,但我認為這篇文章很有見地。當我在一家西南公司工作時,我與許多尋求“ *大數據解決方案*”的客戶進行了互動。實際上,他們錯過了16 GB的SODIMM。
如今有了1TB固態硬盤,非易失性存儲與易失性存儲的速度相差不遠。我覺得我希望大數據大於1TB,也許至少50TB或更多。
就您和哈德利而言,出價數據不僅與交易量有關。通常,出價數據是通過_3V_定義的,最近是通過_4V_模型(由Gartner提出的)定義的-參見下面Dawny33的回答。但是,一些專家(包括來自Gartner的專家)考慮了另一種觀點,他們認為最重要的V維度,其中V代表“業務價值” **。例如,請參閱[this post](https://tdwi.org/articles/2012/07/24/big-data-4th-v.aspx)和[this post](http://www.forbes。com / sites / gartnergroup / 2013/03/27 / gartners-big-data-definition-由三個部分組成,不要與三個vs混淆)。
@AleksandrBlekh您的評論既包含圍繞專家之間關於“大數據”標準的爭議的細微討論,也包含一些支持您對此的主張的參考。我認為您應該考慮將其轉換為答案。
@Silverfish:謝謝您的建議。最初,我考慮過發布答案,但是,我決定將分享我的見解僅限於評論,因為我投票結束這個問題的原因是“過於廣泛”(除了基於_觀點)。因此,我認為,從倫理上講,我不應該提供答案。如果您或此處的其他人認為我在這種推理方法上錯了,請告訴我,我們將很樂意將我的評論轉化為答案。
@Silverfish:我同意。讓我們看看它是否將轉換為Wiki,並將愉快地將我的評論與該答案集成在一起(並可能會擴展一點)。
@AleksandrBlekh(很抱歉,第一次發送太早,因此我們的評論順序似乎很奇怪)如果這是一個社區Wiki問題,我建議您編輯最初由Dawny33發布的答案。由於不是我建議您張貼自己的問題-即使問題被關閉的範圍太廣,我也不認為這個問題會被刪除,因此,如果回答的質量盡可能高,那就太好了。“大數據”的含義是有爭議的,您的回答具有顯示某些爭用本身的優勢,而不是試圖給出確定的單個答案!
@Silverfish:當然,沒問題。您的建議很有道理。我將嘗試提出關於該主題的思想的擴展版本,並將其發佈為今天晚些時候的答案。
如果我同意Silverfish,@AleksandrBlekh,表示任何同意,則其他答案只能改善此處的討論。我也同意您的說法,即大數據不是由大小界限來定義的,並且希望閱讀您評論的擴展版本作為答案。
@ChrisC:很高興聽到這一消息。我今天可能並沒有按照我最初的計劃完成任務,但希望下周初有機會解決我的問題。同時,您可以檢查[_Data Science SE_](http://datascience.stackexchange.com/)姊妹站點(恕我直言,如果忽略我的廣泛看法,它是IMHO所屬的站點),該站點有許多類似的討論。
我喜歡哈德利的作品,但在這種情況下,我真的非常不喜歡這個答案。如果我們要純粹基於可用技術來定義大數據,那麼這個答案在不同的十年中會有所不同。根據這個答案,我在90年代從事大數據工作已有多年,但現在不是。現在,處理大數據的人將不在十年之內。
@John您的觀點很不錯。您認為處理問題所需的計算量與執行時間有關是一件壞事嗎?對我來說,當您最大的個人存儲只能處理1 Mb時使用1 Gb文件是我們今天面臨的同樣問題。即使存儲量與當時的技術有關,您也將以相同的方式處理複雜性。大數據無疑不僅僅是其物理大小,但我認為是引起問題的是相對大小而不是絕對大小,這是我的立場。
@ChrisC,,此問題必須不僅限於數據量,因為較大的數據量因問題而異。例如,在90年代後期我做“大數據”時,它就是fMRI數據。有幾個千兆字節的文件,它們使我們難以管理和移動。但是,對於fMRI數據,由於它們是非常小的數據集,所以我不想將它們歸類為“大數據”。就存儲甚至計算機計算而言,一段時間以來,我們就遇到了大數據問題(例如遺傳學),但從未討論過“大數據”。這個新事物是關於大小的東西。
Dawny33
2015-09-18 17:19:43 UTC
view on stackexchange narkive permalink

如果數據集/流滿足所有四個V

  • Volume
  • Velocity
  • ,則稱為大數據
  • 準確性
  • 多樣性

除非直到滿足,否則數據集不能稱為大數據。

我的類似回答,以供參考。


作為數據科學家,我曾說過;我發現Map-Reduce框架真的很棒。拆分數據,對其進行映射,然後將映射器步驟的結果簡化為單個結果。我發現這個框架真的很有趣,它如何使數據世界受益。

以下是我在日常工作中處理數據問題的一些方式:

  1. 列式數據庫 :這對數據科學家來說是一個福音。我使用 Aws Red Shift作為列式數據存儲。它有助於執行複雜的SQL查詢,並且減輕了麻煩。我覺得這真的很好,特別是當我的成長團隊問一些非常複雜的問題時,我不需要說“是的,跑了一個查詢;我們一天之內就可以解決!”
  2. Spark和Map Reduce框架:上面已經說明了原因。
  3. ol>

    這就是進行數據實驗的方式:

  • 已確定要解決的問題
  • 現在列出了可能的數據源。
  • 管道設計用於將數據從本地數據庫導入Redshift。是的,Spark來到這裡。在數據庫的-> S3-> Redshift數據移動過程中確實很方便。
  • 然後,對Redshift中的數據進行查詢和SQL分析。

是的,有大數據算法,例如超級日誌等。但我沒有發現需要使用它們。

是的。在生成假設之前,首先要收集數據。

我同意這些觀點,但我認為“大數據”一詞涵蓋的內容比數據本身還重要。它也是應用於它的方法,也是在生成關於它的假設之前首先收集數據的範例。
-1
此處,四個V被顛倒為定義大數據,而不是大數據的重要顯著屬性。大數據可以包含很多例子,而這四個卻沒有幾個,甚至在IBM信息圖中也列出了一些。
@John是的,V的變化確實很大。還有一個參數要求新的V(** Value **)
我並不是說它們正在更改,而是您正在將某些屬性的描述錯誤地轉換為定義。就像有人向他們描述了關於狗的忠誠,笑聲和舔important的重要事情,而其他人走過來說這就是狗的定義。就是說,我認為您在考慮逆向分析方向時正處於正確的軌道上,但它只需要以某種方式附加到數據的大小即可。我認為有很多好的方法可以做到這一點,如果您開發出一種方法,那就太好了。
Sycorax
2015-09-18 17:20:52 UTC
view on stackexchange narkive permalink

我認為大數據的唯一有用定義是對有關特定現象的所有信息進行分類的數據。我的意思是,大數據不是收集感興趣的總體樣本並收集這些單位的度量,而是收集整個感興趣的總體度量。假設您對Amazon.com客戶感興趣。對於Amazon.com而言,收集有關所有客戶購買的信息是完全可行的,而不是僅跟踪某些用戶或僅跟踪某些交易。

在我看來,定義取決於客戶的內存大小。數據本身的實用性有限。按照該度量,給定足夠大的計算機,實際上沒有數據是大數據。在無限大的計算機的極端情況下,這種說法似乎可以簡化,但請考慮將我的消費級筆記本電腦與Google服務器進行比較的情況。顯然,嘗試篩查TB的數據時會遇到巨大的後勤問題,但是Google有足夠的資源來方便地完成該任務。更重要的是,計算機的大小不是數據的固有屬性,因此,純粹參考您所擁有的任何技術來定義數據就像是根據距離的長度來測量距離。

這種說法不只是形式主義。一旦具有足夠的計算能力,就不再需要復雜的並行化方案和分佈式計算平台。因此,如果我們接受大數據太大而無法放入RAM的定義(或使Excel崩潰或其他原因),然後在升級計算機之後,大數據將不復存在。 strong>這似乎很愚蠢。

但是讓我們看一些有關大數據的數據,我將其稱為“大元數據”。 博客文章觀察到一個重要趨勢:可用RAM的增長速度超過數據大小,並且挑釁性地宣稱“大RAM正在吞噬大數據”,也就是說,有了足夠的基礎架構,您將不再擁有一個大數據問題,您只有數據,然後又回到了常規分析方法的領域。

此外,不同的表示方法將具有不同的大小,因此,尚不十分清楚擁有“大數據”是根據其內存大小定義的。如果以存儲大量冗餘信息的方式構造數據(即,選擇效率低下的編碼),則可以輕鬆跨越計算機可以輕鬆處理的閾值。但是,為什麼要讓定義具有此屬性?在我看來,數據集是否為“大數據”不應該取決於您是否在研究設計中做出了有效的選擇。

從從業者的角度,我定義的大數據它還帶有計算要求,但是這些要求是特定於應用程序的。通過$ 10 ^ 4 $觀察的數據庫設計(軟件,硬件,組織)思考與$ 10 ^ 7 $觀察的思考有很大不同,這完全可以。這也意味著,按照我的定義,大數據可能不需要我們在經典統計中開發的專業技術:當您需要推斷時,樣本和置信區間仍然是非常有用和有效的推論工具。線性模型可以為某些問題提供完全可接受的答案。但是我定義的大數據可能需要新穎的技術。在預測因素多於訓練數據的情況下,或者預測因素隨數據大小增長的情況下,可能需要對新數據進行分類。這些問題將需要更新的技術。


順便說一句,我認為這個問題很重要,因為它隱含地提到了為什麼定義很重要-也就是說,您要為誰定義主題。對一年級生加法的討論並非從集合論開始,而是從對物理對象計數開始。根據我的經驗,“大數據”一詞的大多數用法都出現在大眾媒體或非統計或機器學習專家(例如,營銷材料請專業分析)之間的人之間的交流中,表示現代計算機實踐意味著存在大量可以利用的可用信息的想法。這幾乎總是在數據洩露的情況下進行,該數據揭示了有關消費者的信息,即使不是私人信息,也可能不會立即顯現。關於零售連鎖店向其評估的人們直接郵寄郵件的軼事是根據最近的購買情況而定的準媽媽,這就是典型的例子。

因此,圍繞“大數據”的常用用法的內涵和分析也帶有這樣的思想,即只要應用了足夠的推論方法,數據就可以揭示一個人生活的晦澀,隱藏甚至私人的細節。當媒體報導大數據時,匿名性的惡化通常是他們所要驅動的-從這個角度來看,定義“大數據”似乎有些誤導,因為大眾媒體和非專業人士都不關心隨機性的優缺點。森林和支持向量機等,它們也不了解不同規模的數據分析的挑戰。 這很好。從他們的角度出發,關注點集中在信息時代的社會,政治和法律後果上。對媒體或非專業人士的準確定義實際上並沒有用,因為他們的理解也不准確。 (不要以為我自鳴得意-我只是觀察到並不是每個人都可以成為一切方面的專家。)

這個。“根據我的經驗,“大數據”一詞的大多數用法都出現在大眾媒體或非統計學或機器學習專家的人們之間的交流中(例如,營銷材料請專業分析)
我想您的最後一段是對您的看法。我認為,大眾媒體的理解與統計學/機器學習/數據科學界人士對大數據一詞的看法之間存在非常明顯的差距。我只是覺得實際上需要達成更明確的共識。這樣做的一個原因是要有一個引用,使人們在明顯不適用時不能操縱該術語或濫用該術語。
我理解具有精確定義的衝動-但是我不確定在這種情況下是否有可能,因為該術語是由非專家使用的。我認為,我對“大數據”的解釋將大大有助於您對精度的要求,因為它以不依賴於某人正在使用的特定計算機的方式排除了一系列實踐。此外,它還包括大數據的其他常見定義作為特殊情況。
我想我開始越來越同意你了。我仍然覺得CV需要一個參考問題,對此感興趣並感興趣的人在此問題上花費2美分。我在這裡尋找問題,我覺得缺少討論。
我認為這是一次很有價值的對話,很高興您提出了這個問題!很高興您發現我的評論很有幫助。
我喜歡這個答案有多種原因。首先,我認為強調“大數據”與用於分析它的算法無關,這一點非常重要。他們中的大多數人年齡在20至30歲之間(隨機森林,線性回歸等),並且工作正常。行業中有些人認為“大數據”與新穎的算法結合在一起,因為他們甚至可能都不知道機器學習已經存在了很多年。其次,“大數據”與規模無關。如果您有一台具有128 Gb RAM的服務器,並且可以將所有內容裝入內存,那就太好了。(續)
(續)在我看來,“大數據”只是用於處理您無法以任何其他方式使用的數據的一組現代技術/工具,要么因為它太大,就無法存儲,要么幾乎實時出現,依此類推。另外,我認為所有帶有5/6/7 ... 14“ Vs”的定義只是製作演示文稿的第一張幻燈片的一種方法,但其本身並沒有太多價值。
@skd是的,我認為許多大數據“問題”被更準確地視為研究設計的失敗。我使用巨大的數據集,但是在少數情況下,我們需要一次處理所有數據。通常,採樣和其他標準方法都很好。根據我的批評,我無法理解為什麼基於大小的定義吸引瞭如此多的關注。
Laurent Duval
2015-09-20 13:02:30 UTC
view on stackexchange narkive permalink

enter image description here

對大數據的大量文獻進行交叉檢查,我收集了多達14個“ V”項,其中13個沿11個維度: >

  • 有效性,
  • 值,
  • 變量/方差,
  • 變量,
  • 速度,
  • 真實性/活力,
  • 可行性,
  • 虛擬性,
  • 可視化,
  • 波動性,
  • 音量。

第14個術語是“真空度”。根據最近的一個挑釁性帖子,大數據不存在。其主要觀點是:

  • “大數據”並不大
  • 大多數“大數據”實際上並沒有用
  • [我們應該是]充分利用小數據

對大數據的正確定義將隨著硬件,軟件,需求和知識而發展,並且可能不應該依賴於固定大小。因此,大數據的可定義:創新,競爭和生產力的下一個前沿,2011年6月:

“大數據”是指大小為超出了典型數據庫軟件工具的捕獲,存儲,管理和分析能力。

“空缺”引用的文章似乎非常薄弱。暗示每天30GB的數據並不大(而且大小是定義的唯一組成部分)。此外,有人爭辯說,因為公司說他們的數據比實際大得多,這意味著它並不大。大處都沒有大的定義。並且所有用來表示“不大”的示例在此都列出了許多V。
“空隙”不僅適用於尺寸。確實,在最後的一線模式中,“大”的定義是要隨著當前實踐狀態而發展的。過去的大事可以在幾年後視為小事。在這裡,我使用的術語是“大數據”被用作魔術咒語而幾乎沒有實質內容,如上圖所示。
14個條件全部以字母V開頭的可能性有多大?我們都是統計專家,來吧!
我同意,基本上,這只是表明像大數據這樣的術語更可能屬於營銷領域而不是統計領域。但是,我想分享我所讀術語的“集合”。它以3V開始,然後是5V,有時甚至是7,以此類推。這些術語可以模糊地幫助發現一個人擁有的數據特徵
Aksakal
2017-01-20 01:01:36 UTC
view on stackexchange narkive permalink

人們似乎對大數據中的 big 限定詞感興趣。但是,大小只是該術語(域)的組成部分之一。僅數據集 big 不足以將問題(域)稱為大數據,這還不夠,您還需要難以理解,分析甚至處理。有人稱此功能為 unstructured ,但不僅僅是結構,而且數據的不同部分和元素之間的關係也不清楚。

考慮高能物理學家在諸如 CERN之類的地方工作的數據集。在 Big Data 術語誕生之前,他們已經使用了PB大小的數據。但就目前而言,據我所知,他們並未稱其為大數據。為什麼?因為數據是相當規則的,所以他們知道該怎麼做。他們可能還無法解釋所有觀察結果,因此他們可以使用新模型等。

現在,我們稱大數據為處理數據集的問題,這些數據集的大小可能會在CERN的LHC中在幾秒鐘內生成。原因是這些數據集通常是來自多個格式不同的數據源的數據元素,這些數據之間的關係不清楚,並且對業務的價值不確定。它可能只有1TB,但是要處理所有音頻,視頻,文本,語音等非常困難。因此,就複雜性和所需資源而言,這比CERN數據的PB級要重要。我們甚至不知道我們的數據集中是否存在可辨別的有用信息。

因此,大數據問題的解決涉及解析,提取未知值的數據元素,然後將它們彼此鏈接。單獨“解析”圖像可能是個大問題。假設您正在尋找城市街道上的閉路電視錄像,以查看人們是否越來越憤怒,是否會影響涉及行人的道路交通事故。有大量視頻,您可以找到面孔,嘗試通過表情來衡量他們的情緒,然後將其鏈接到事故數據集,警察報告等的數量,同時控制天氣(沉澱,溫度)和交通擁堵。您需要支持這些不同類型的大型數據集的存儲和分析工具,並且可以有效地將數據相互鏈接。

大數據是一個複雜的分析問題,其複雜性源於其龐大的規模以及其中結構和信息編碼的複雜性。

好的輸入。人們通常會錯過LHC和CCTV數據問題之間的對比。
Metariat
2015-09-18 17:51:39 UTC
view on stackexchange narkive permalink

我認為人們對大數據感到困惑的原因是他們沒有看到它的好處。大數據(技術)的價值不僅在於您可以收集的數據量,還在於預測建模,而最終更重要的是:

  1. 預測建模徹底改變了我們進行統計和預測的方式,它使我們對數據有了更深入的了解,因為新模型,新技術可以更好地檢測趨勢,數據噪聲,並且可以捕獲“多維”數據庫。數據庫中的維數越多,創建好模型的機會就越大。預測建模是大數據價值的核心。
  2. 大數據(就數據大小而言)是初步步驟,可以通過以下方式為預測建模服務:關於以下方面的數據庫:1.預測變量數量(更多變量),​​2.觀察值數量。
  3. ol>

    更多預測變量,因為我們現在能夠捕獲以前無法捕獲的數據(由於有限的硬件能力,處理非結構化數據的能力有限)。更多的預測變量意味著有更多的機會擁有重要的預測變量,即可以為業務做出更好的模型,更好的預測,更好的決策。該模型學習/檢測現實中可以呈現/生成的所有可能模式。

Cort Ammon
2015-09-19 01:22:41 UTC
view on stackexchange narkive permalink

關於大數據與其反義詞(大概是小數據)的棘手之處在於它是一個連續體。大數據人走到了頻譜的一側,小數據人走到了另一側,但是沒有人人都能同意的明確界限。

我將研究行為差異兩者之間。在小數據情況下,您有一個“小”數據集,並且您希望盡可能多地壓縮每個數據點的信息。獲取更多數據,可以獲得更多結果。但是,獲取更多數據可能會很昂貴。人們收集的數據通常受約束以適合數學模型,例如進行部分因子測試以篩選有趣的行為。

在大數據情況下,您有一個“大”數據集,但您的數據集傾向於不受限制。通常,您不會說服您的客戶購買拉丁廣場的家具,只是為了使分析更加容易。取而代之的是,您往往會遇到數據結構混亂的數據。為了解決這些問題,目標往往不是“選擇最佳數據,並從中提取所有可能的數據”,就像如果習慣於處理小數據時可能會天真地嘗試那樣。我們的目標往往是“如果從每個數據點中獲取一個微小的smidgen,總和將是巨大而深遠的。”

在它們之間是中等大小的數據集,結構還可以。這些是“非常棘手的問題”,因此,我們現在傾向於將其分為兩個陣營:一個陣營中有小數據擠占了它的最後一點,而另一個陣營中有大數據試圖設法讓每個數據點都閃耀自己對。隨著我們的前進,我希望看到更多的小數據流程試圖適應更大的數據集,並且更多的大數據流程試圖適應利用更多的結構化數據。

您對小數據的表徵聽起來很像Bem關於分析的書。請查找對此的批評,因為這是處理小型數據集的一種不適當的方法,除了用於將來的數據收集所基於的私人探索之外。
我可能不得不看一下@John。批評足以使我什至不能用表徵來描述連續體嗎?
進入這裡確實很長一段時間,但是最重要的信息是,您不要*使用*少量數據從每個數據點中擠出所有可能的內容。也許是Google Gelman和Forking Paths;或者,實驗者的自由度。您必須以不同的方式考慮小型和大型數據分析,而不僅僅是連續性上的觀點。
John
2015-10-19 15:22:10 UTC
view on stackexchange narkive permalink

我要說的是,定義大數據時必須包含三個要素:分析方向,相對於總體的數據大小以及相對於計算問題的數據大小。

該問題本身提出假設是在數據存在後發展起來的。我不使用“收集的”,因為認為“收集的”一詞是出於某個目的,而數據通常在當時尚不存在。收集通常是通過將現有數據匯集在一起以解決問題而在大數據中進行的。

第二個重要部分是,事後分析(即所謂的具有較小數據集的探索性分析)不僅僅適用於任何數據。它的大小必須足以使人們相信,從中收集的估計值與總體估計值足夠接近,可以忽略許多較小的樣本問題。因此,我有點擔心該領域目前正在推動多種比較校正。如果您擁有全部人口,或者您有充分的理由相信這是有效的近似值,那麼這種修正就沒有意義了。雖然我意識到確實確實發生過,有時確實出現了一些問題,這些問題的確確實將“大數據”變成了一個小樣本(例如,大的邏輯回歸),但最終導致理解特定問題的大樣本。相反,應將多個比較問題中的許多問題轉為效果大小問題。而且,當然,您將要使用alpha = 0.05進行測試的整個想法,就像許多大數據一樣,都是荒謬的。

最後,人口稀少沒有資格。在某些情況下,人口很少,因此可以很容易地收集檢查數據所需的所有數據,並滿足前兩個條件。數據的大小必須足以使其成為計算問題。因此,在某些方面,我們必須承認“大數據”可能是一個短暫的流行語,也許是永久地尋求嚴格定義的現象。現在,使“大數據”變得龐大的某些事情將在短短幾年內消失,基於計算機容量的哈德利(Hadley's)定義似乎古樸。但是,從另一個角度來看,計算問題是與計算機容量無關的問題,或者與永遠無法解決的計算機容量無關的問題。我認為從這個意義上講,定義“大數據”的問題將在將來繼續存在。 (comp sci中通常有很多示例,有些是適用的,我將不討論)。我不想做任何事情,因為我認為這必須保持開放。隨著時間的流逝,許多人的作品匯集在一起,使事情變得容易,這時更多的是通過軟件開發,而不是通過硬件。也許為了使這個最後的要求更牢固地界定,該領域將必須更加成熟,但是邊緣總是模糊的。

感謝您的輸入!我認為您為此線程提供了寶貴的見解。我認為數據的大小是這裡的人口多少被忽略了。
Tim
2015-09-18 17:15:22 UTC
view on stackexchange narkive permalink

Wikipedia提供了非常明確的定義

大數據是數據集的廣義術語,其數據集太大或太複雜以至於傳統數據處理應用程序不足。 (來源 https://en.wikipedia.org/wiki/Big_data

我知道的另一個簡單定義是

數據不適合計算機內存。

不幸的是,我不記得它的引用。所有其他一切都源於此定義-您必須以某種方式處理大量數據。

Yohan Obadia
2015-09-18 17:20:01 UTC
view on stackexchange narkive permalink

我要補充一點,大數據是指要么處理大數據集(數百萬和/或數十億行),要么嘗試查找有關您現在可以隨處收集的廣泛數據資源的信息/模式。



該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...