看著那麼多人在爭論如何定義大資料,感覺非常有意思。總是會有人提出不同的建議,即便只是存在細微的差別。在任何規則的背後也都會有潛在的例外。因此,從商業角度,而不是單純的學術研究方面來講,我認為在這樣的爭論上花很多精力並沒有太大的實際價值。還是讓我們來一**竟吧。
資料分析的目的是為了利用資料去做出更好的商業決策。這一切都在於它的商業價值。判定資料本身究竟是「大」與否並沒有增加任何的商業價值。業界需要關心的問題其實很簡單:是否存在一些其本身具有很高的潛在價值,但目前仍未被收集的資料來源?如果答案是肯定的,那麼它就需要被收集並分析。這便是乙個商業人士應該關心的核心問題。他們並不需要去在意資料本身的大還是小,或者介於兩者之間。
讓我們來想象乙個應用場景,一群商業以及it人士聚集在乙個大型會議室,討論一項新的資料來源。作為座談的一部分,他們達成一致協議,認為這項新的資料來源應當(或不應當)被認定為大資料。這份結論對推動會議程序起到了任何作用嗎?什麼也沒有。真正推動會議程序的,是這只商業團隊認可這項新的資料資源是有用的並且值得分析;是這只it團隊決定如何基於資料本身的特點以最佳的方式使得資料可用。只有當致力於使資料付諸於工作而不僅僅停留在語義的定奪上,才會有真正的進展。
如上所說,一旦決定某項資料來源是重要的,那麼資料本身的特點會影響我們如何獲取它以及如何將其應用於分析過程。舉例來說,如果這項資料通常是大資料並且/或者是鬆散的,我們可能會需要利用某些與大資料相關的技術。但是,這僅僅是出於一種技術實現方面的考慮。而關於這項資料,做出是否具有足夠價值去收集的重大決定,與我們將其置於怎樣的語言定義範疇,沒有任何的關係。
通過以上觀點可以看到,更多與「大資料」相關的其實是乙個「不同資料型別」的組合。文字資料需要不同的工具和技術。半結構化資料比起傳統的結構化資料需要更多不同的處理。但是,這些資料型別對於無論是大型還是小型資料而言都需要不同的處理方式。
對於負責大資料技術實現的人群,還是有必要去練習理解各類資料的不同,以及他們是被如何定義的。我並不是說在這個領域裡的所有努力都是浪費時間。如果你連資料本身所包含的內容都不理解,那你如何去開發處理資料的工具以及技術呢。我僅僅是認為,我們過多的強調了涉及客戶的主題,例如那些實際上並不用去擔心的商業客戶。
下一次當有人再向你詢問如何定義大資料,或者某一項資料**是否應當被認定為大資料的時候,考慮下你將如何回答。你們真的需要這樣的討論嗎?或許你們是否需要換個角度,更多的去研討這項資料可能會具有怎樣的價值以及應當怎樣予以分析?我相信,如果選擇了後者,你們將會取得更大的進展,獲取更大的價值。
「大數」據真的那麼必要麼
大資料 這個詞這幾年火的不得了。各種企業都宣稱自己掌握著大量的資料,好像有了大資料,就能解決一切問題一樣。然而現實情況時,很多時候我們對資料的痴迷,卻將我們引上了歧途。是的,在一些情況下,要想從資料中萃取有用的東西,我們的確需要大量的這類資料,然而對於創新者來說,資料的數量和規模並不是最關鍵的因素 ...
你真的理解大資料嗎?
大資料很火,已然是一種大勢所趨,是雷軍口中的下乙個吹起豬的風口,是劉強東哥倫比亞大學深造回來的第乙個發展物件。大資料牽動著全國精英的心。然而,你真的理解什麼是大資料嗎?就目前來看,對大資料進行解釋的聲音總體分為兩種,一種是大資料資料量級要大,一般可達到pb級別,有了足量的資料之後,根據資料搭建起乙個...
資料倉儲 大資料定義
2012年gartner公司將大資料定義為3v,即 大容量 volume 高流速 velocity 多樣化 variety 後來人們在3v基礎上增加新的v veracity 即真實性。現在人們普遍認可的大資料是具有4v,即 volume velocity variety veracity,也就是大 ...