在大資料領域裡,經常會看到例如資料探勘、olap、資料分析等等的專業詞彙。如果僅僅從字面上,我們很難說清楚每個詞彙的意義和差別。大講台老師通過一些大資料在高校應用的例子,來為大家說明白—資料探勘、大資料、olap、資料統計的區別。
(一)資料分析
資料分析是乙個大的概念,理論上任何對資料進行計算、處理從而得出一些有意義的結論的過程,都叫資料分析。從資料本身的複雜程度、以及對資料進行處理的複雜度和深度來看,可以把資料分析分為以下4個層次:資料統計,olap,資料探勘,大資料。
(二)資料統計
資料統計是最基本、最傳統的資料分析,自古有之。是指通過統計學方法對資料進行排序、篩選、運算、統計等處理,從而得出一些有意義的結論。
舉例,對全年級學生按照平均成績從高到低排序,前10%的學生可以獲得申請研究生免試資格。
(三)olap
舉例,學校招生時要決定今年在江蘇的招生指標,不能簡單地參照去年的計畫,而是要參考多個維度的資料積累。學校要在這些資料的支援下做出合理的決策。
olap更進一步告訴你下一步會怎麼樣(what next),如果我採取這樣的措施又會怎麼樣(what if)
(四)資料探勘
資料探勘是指從海量資料中找到人們未知的、可能有用的、隱藏的規則,可以通過關聯分析、聚類分析、時序分析等各種演算法發現一些無法通過觀察圖表得出的深層次原因。
舉例,學校發現高等數學等主幹課的不及格率有逐年上公升的趨勢,一般認為是學習不認真所致,但做了很多任務作效果並不明縣,這時通過資料探勘……
針對此可以採取有針對性的管理措施。
(五)大資料
大資料是指用現有的計算機軟硬體設施難以採集、儲存、管理、分析和使用的超大規模的資料集。大資料具有規模大、種類雜、快速化、價值密度低等特點(4v特性)。大資料的「大」是乙個相對概念,沒有具體標準,如果一定要給乙個標準,那麼10-100tb通常稱為大資料的門檻。
總結:
從資料分析的角度來看,目前絕大多數學校的資料應用產品都還處在資料統計和報表分析的階段,能夠實現有效的olap分析與資料探勘的還很少,而能夠達到大資料應用階段的非常少,至少還沒有用過有效的大資料集。
我們不需要糾結所謂的「專業名詞」,作為乙個資料分析師,我們的目標是幫助業務更好的發展、減少決策的風險、提取重要的資訊,所以業務的套路和理解才是我們的立足之本,資料分析畢竟是我們達成某種目標的工具,療效才是對我們更深層次的驗證。
大資料分析挖掘方法實戰
慧智匯 17xuee直播課程之大資料分析挖掘方法實戰案例 主題 大資料分析挖掘方法實戰案例 主講公司 慧智匯科技 收費標準 200 人 中文演講人 鄧亞明,香港上市it公司資深研究員 講師簡介 鄧老師在資訊科技方面有超過18年的經驗。主要研究方向包括企業架構和資料分析。專長有企業架構 資料模型分析和...
資料分析與資料探勘
一 常用資料探勘方法 1 關聯方法 2 人工神經網路 3 決策樹 4 異常分析 5 聚類分析 6 arima測試 二 資料分析師 國內兩種資料分析師認證 資料分析師cda 專案資料分析師cpda cda 1 統計概率基礎 2 資料分析模型方法 3 工具的運用 spss,modeler 三 資料分析的...
資料分析和資料探勘
什麼是資料分析與資料探勘 資料分析 對已知資料進行分析,然後提取一些有價值的資訊 比如 統計出平均數 標準差等資訊 資料探勘 對大量的資料進行分析挖掘,得到一些未知的,有價值的資訊等。比如從 的使用者或使用者行為資料中挖掘出使用者其潛在需求資訊,從而對 進行改善 已知到未知 關係 資料分析和資料探勘...