林仕鼎 大資料需要三類人才

2021-09-05 08:38:32 字數 1522 閱讀 6261

在這裡,資料科學家是一種狹義上的定義,指的是那些具有資料分析能力,精通各類演算法,直接處理資料的人員。經資料科學家加工和分析後得到的資訊可以作為業務處理流程的輸入資料,用來驅動業務的發展。

資料架構師則要精通業務,了解業務的需求和業務系統的架構,這樣才可能把資料和業務進行對接。

還有一類大資料人才是資料工程師,他們具有很強的程式設計能力特別是系統級程式設計能力。他們的工作是搭建資料儲存、管理以及處理的平台,支撐資料科學家提出的數學模型或演算法的執行。

大資料大不同

大資料一定是那些用傳統的資料處理技術和方法沒法處理、管理和使用的資料。大資料的「4v」特徵簡而言之,就是需要對多源多樣的動態資料做實時的關聯分析和挖掘。這也決定了傳統的商業智慧型、資料庫技術等已無法發揮其作用。舉例來說,傳統資料庫面對的資料容量通常是tb級,而現在網際網路行業需要處理的資料一般都是pb級甚至是eb級。不僅如此,資料的**正變得多樣化,而且不是靜態的,這些都給資料的處理帶來了新挑戰。大資料要求將這些不同**、不同結構的資料全部結合在一起進行關聯分析,並從中提取所需的價值。

因此,大資料需要全新的大資料處理系統,也需要專業的大資料人才。

上文提到的資料科學家、資料架構師和資料工程師,其實是乙個有機的整體,是有效處理大資料所不可缺少的專業人才。林仕鼎表示:「大資料行業迫切需要這三類人才,而企業也各有分工,有的是大資料技術的建設者,更多的是大資料技術的應用者。企業可以根據自身的定位和需求來選擇需要的人才。」

乙個企業的大資料業務通常涉及系統、資料和業務三個層面的問題。

系統是乙個提供資料管理和服務並支援模型和演算法的基礎架構,資料工程師的主要工作就是負責搭建這樣乙個執行平台。

資料是指資料處理和分析,這是資料科學家的工作職責。

業務是指企業的業務需求、流程等,資料架構師要熟悉本行業的業務需求,並且要知道如何讓大資料服務於業務。

「資料科學家必須了解資料意味著什麼,並且能夠通過提供一定的演算法或模型將資料的價值挖掘出來。」林仕鼎補充說,「以前,企業通常是採購成熟的it解決方案,比如oa、erp或crm系統等,企業的技術人員做一些二次開發然後管理和維護這些系統即可。但是現在,市場上沒有成熟的完全適合企業需求的大資料解決方案。因此,企業迫切需要像資料科學家、資料架構師甚至資料工程師這樣的專業技術人才。」

資料科學家注重實踐

現在,社會上關於hadoop技術培訓的訊息鋪天蓋地。掌握hadoop技術的人才實際上屬於資料工程師這一類,但是僅僅掌握了hadoop這一工具,距離實施大資料專案所應具備的技能還有很大差距。

北京航空航天大學與慧科教育聯合開辦的大資料技術與應用研究生班,將培養理論結合實際,同時將更突出實戰性的大資料通用人才作為培養目標。許多老師都是在業界工作多年、具有豐富實踐經驗的專家。林仕鼎本人是這個研究生專案的專業主任。

「我們教授的是大資料基礎知識,同時鼓勵學生更多地參與企業實踐,讓他們所學的大資料知識在實踐中得到檢驗。」林仕鼎表示,「我們不會平鋪直敘講述知識點,而是通過應用場景來串聯知識點,然後再解釋其中的原理。同時,我們也會更加強調實踐的重要性,安排更多大作業專案。大資料需要的是複合型的人才,不僅要具備紮實的基礎知識,更重要的是有充足的實踐經驗。」

林仕鼎 大資料需要三類人才

在這裡,資料科學家是一種狹義上的定義,指的是那些具有資料分析能力,精通各類演算法,直接處理資料的人員。經資料科學家加工和分析後得到的資訊可以作為業務處理流程的輸入資料,用來驅動業務的發展。資料架構師則要精通業務,了解業務的需求和業務系統的架構,這樣才可能把資料和業務進行對接。還有一類大資料人才是資料...

林仕鼎談資料中心計算(二) 儲存資源分層

之所以會從儲存系統先開始,是因為資料儲存是最根本的需求。不管你做什麼,你都需要儲存。所以,通常都是先做儲存系統,然後才是其他系統。我們做乙個大規模儲存系統,它就已經在推動整個系統的架構發生了變化。從單使用者多工到多使用者單任務,帶來了系統架構的變化,然後帶來了軟體設計理念的變化。那麼,資料中心裡面使...

王家林百萬大資料人才之路

王家林的第乙個中國夢 免費為全社會培養100萬名優秀的大資料從業人員!1,大資料不眠夜 spark核心天機解密 共100講 2,hadoop深入淺出實戰經典 3,spark純實戰公益大講壇 4,scala深入淺出實戰經典 5,docker公益大講壇 6,spark亞太研究院spark公益大講堂 4,...