大資料時代的資料分析區別於普通的資料分析,這是由大資料的特性所決定的,為了適應大資料的時代的發展,資料分析師也應該轉變一些分析的思想和觀念。
大資料時代的要求:
資料需要流動起來才有價值:
大資料典型的場景:
當資料量、基礎設施以及資料價值逐漸變大時,對知識挖掘和發現的方法也需要不斷的改進。
在量子論的世界裡,一切都是不確定的,薛丁格的貓和海森堡的測不准準則都告訴我們這是個不確定的世界。大資料時代,儘管大資料要求要全集,不要部分;要混雜,不要精確;要相關不要因果,但大資料也還是測不准的。在硬體基礎設施不斷公升級的過程中,大資料分析師也要與時俱進,跟上時代的步伐。
對大資料分析師的要求:
從原有的資料分析過程來看大資料時代的分析:
假設:
原來的分析步驟是先設定乙個假設,再去獲取相關的資料,在大資料時代,我們需要先獲得資料,在對資料進行一定發掘後從相關性中獲取假設,再進一步的反過來驗證。從若干相關性中獲取假設,需要一定的先驗知識,這些先驗知識**廣泛的閱讀、與人交流的碰撞,以及相應的業務知識。
收集:
大資料時代要求獲取資料的全集,並且這些資料中包含噪音是必然的,資料的型別也多樣的,包括結構化、半結構化以及非結構化。原來的企業資料倉儲(enterprise data warehouse)也逐漸變成了企業資料中心(enterprise data hub/lake ),原來是設定一定模式後再去獲取相應結構的資料,現在是先有資料並且這些資料也是在實時的變化,因此也要求系統可以實現資料的結構變化調整,從一種形式變成另一種形式。
資料也是有一定的生命週期,並不是說所有的資料都有很大的價值,就像學習的知識一樣,在72小時內不去溫習的話,效果就不那麼好了。資料也是這樣,剛產生的資料價值最大。同時,資料也需要交換和流動,只有與其他人分享資料,資料才公升值。
資料準備:
大資料時代資料量很重要,但資料質量卻是重中之重。
分析:
大資料分析和挖掘涉及到的知識面廣,包括資料庫、機器學習、統計、kdd、ai、pattern recegnition、nurocomputing等,資料分析主要涉及兩方面的工作:資料查詢和分析;複雜的線性代數。大資料也越來越擁抱雲,很多任務具都整合到雲環境中去了,甚至出現了ml pipeline 機器學習流水線的概念。資料分析師需要具備一項或幾項工具裝備如sas、r、sql、python等。但究竟像刺蝟一樣『一招鮮,吃遍天』,還是像狐狸一樣『一把鑰匙開一把鎖』?在大資料時代最好還是懂得各項技術結合使用。
模型的複雜度與問題匹配:
奧卡姆剃刀原理(簡單有效原理)
資料不可名狀的功效:
簡單的模型+大資料》複雜的模型+小資料?那是不是簡單的模型就一定有效?
首先得看你怎麼定義『簡單』,是公式簡單?解釋簡單?
能解釋和利用資料的最簡單模型
引數模型、線性模型、判斷型模型適合於小資料,非引數型、非線性模型、生產性模型適合於大資料。但這並不說明大資料不能使用引數模型、線性模型、判斷型模型。對傳統模型,可能無法感知長尾上的訊號,對大資料適合的模型計算複雜度一般都很高。有時候可以考慮模型的混合尤其是在資料競賽中,但在實際應用中一般很少用到。大資料時代需要互動式的資料查詢,這就需要很快的處理速度。
人的角色:human machine intelligence
人在資料分析中地位不可完全替代,人與機器的搭配才能獲得最佳效能:人人合作、人機協作、外包、眾包、人類計算、協作。
資料科學是一門藝術
stem:science technology engieering mathematics
steam:science technology engieering art mathematics
不僅是視覺上的藝術,也是語言的藝術,要有講好故事的能力(drama,detail,dialog)
"stroy telling and ideas worth spreading"
最後再完整的看看完整的大資料分析流程:
dataanswer,玩資料,我們是認真的!dataanswer
CDALEVEL 大資料分析師
1.大資料分析基礎 1 2.python 基礎 5 3.linux ubuntu 作業系統基礎 2 hadoop 安裝配置及執行機制解析 2 hdfs 分布式檔案系統 2 mapreduce 理論及實戰 2 hadoop 生態其他常用元件 6 資料庫導論 2 mysql 理論及實戰 3 hbase ...
大資料分析師養成記
以下是一位在資料分析領域打滾了n年後,寫下的一些體會,一定能給新人一些借鑑的地方。總結的不錯,大家可以借鑑學習哦 一 資料分析師有哪些要求?1 理論要求及對數字的敏感性,包括統計知識 市場研究 模型原理等。2 工具使用,包括挖掘工具 資料庫 常用辦公軟體 excel ppt word 腦圖 等。3 ...
大資料分析師「錢途」無量
大資料時代已經到來,人類開始進入商務智慧型化時代。如火如荼的大資料行業催生了一項與資料處理相關的職業 大資料分析師,後者通過對資料的挖掘分析來影響企業的商業決策。大資料分析師是幹嘛的?大資料分析師就是一群玩資料的人,玩出資料的商業價值,讓資料變成生產力。阿里巴巴集團研究員薛貴榮曾如此概述。大資料分析...