大資料之我見

2021-06-28 03:53:45 字數 895 閱讀 6739

現在大資料是個熱詞(buzzword),我也湊個熱鬧。現在前面不加個「大」字都不好意思說資料,大確實是大資料的特點之一。以前也有資料,為什麼最近變大了呢?資訊科技的發展,硬體的發展,網路技術的發展使海量資料的獲取、儲存、處理變得容易,所以資料變大了。」大「只是現在資料的乙個特點,有mapreduce, hadoop, spark等工具來應對資料的大。 言必稱hadoop等工具的人不見得真的懂資料分析,畢竟大資料之前我們也做資料分析,當時我們用抽樣的方法(sample)。

資料分析需要三個方面的知識,it技能、數學和領域知識。 it技能包括前面提到的hadoop,mapreduce等新工具的使用,還包括資料庫、sql等舊工具的使用,相對來說我認為不是最關鍵的技術。數學方面知識包括概率論數理統計、線性代數等數學分支,這些反而是我認為相對更重要的,乙個資料科學家可以不會用hadoop,mapreduce等工具,但這些數學知識必知必會。做資料分析,資料不是最重要的,我們想由資料回答什麼問題更重要。領域知識是用來提這些問題的。分析電子商務的商品資料,分析生物資訊學的蛋白質和基因,分析行為經濟學,需要不同的領域知識。所以說大資料分析團隊需要具備這三個方面能力的成員。

資料分析有描述(descriptive statistics),推論(statistics inference),應用等幾個層面。描述相對簡單,推論、**和應用起來就難了。所以說宣稱自己是大資料專家的人,還要看他處於哪個層面。 

我覺得下面三句話對從事資料分析的人會很有用。一,相關不代表因果。二,洞察力比工具重要。三,問題比資料重要。

傳統資料分析重視因果的分析,大資料分析往往不重視。在大資料分析中,相關可能比因果重要。我知道啤酒和尿布擺放在一起可以促進銷量,不必要知道背後的原因。除了對相關和因果的追求不同外,大資料分析不同於普通資料分析的另外兩個特點是大資料分析要效率不要精確(全體資料裡可能包含錯誤資料,不可能全部剔除),要全體不要抽樣。

大資料發展趨勢之我見

隨著我國進入大資料時代,很多人對大資料的發展趨勢還處於懵懂的狀態,充分提公升大資料的應用對於我國各行業,都會有非常重要和有效的指導性作用。那麼,大資料的發展趨勢到底是怎樣的呢?下面,就讓我們一起來了解一下吧。突破科學理論 大資料的發展十分快速,對於目前已經飛速發展並且極具影響力的網際網路一樣,對於社...

大資料分析模型成功關鍵因素之我見

無論在報紙 雜誌 機場 還是在酒吧的閒談中,大資料都成了乙個熱門話題。每個人都在談論這個時尚的話題,但迄今為止只有極少數企業真正成功的運用這一技術 導致這一情況的重要原因就是企業對建立可操作的大資料分析模型成功關鍵因素缺乏深刻的認識。結合多年來與多家全球性公司合作經驗,我們認為 為了取得成功,大資料...

資料庫正規化之我見

在上學的時候,資料庫之中就講過資料庫正規化,現在突然想複習下,就上網查了下發現還是自己親自理一遍比較清晰 關聯式資料庫中的關係必須滿足一定的要求,即滿足不同的正規化。目前關聯式資料庫有六種正規化 第一正規化 1nf 第二正規化 2nf 第三正規化 3nf 第四正規化 4nf 第五正規化 5nf 和第...