大資料難以管理的原因,可以用 3v 來描述,即volume(容量) 、variety(多樣性) 、velocity(產生頻率、更新頻率)。從廣義上來說,大資料可以定義為包括因具備 3v 特徵而難以進行管理的資料,對這些資料進行儲存、處理、分析的技術,以及能夠通過分析這些資料獲得實用意義和觀點的人才和組織的綜合性概念。
大資料出現的前提,從技術方面來看,硬碟**下降,nosql 資料庫等技術的出現,使得和過去相比,大量資料能夠以廉價高效的方式進行儲存。。此外,像 hadoop 這樣能夠在通用性伺服器上工作的分布式處理技術的出現,也使得對龐大的非結構化資料進行統計處理的工作比以往更快速且更廉價。
資料科學家所需的技能
資料科學家所需的技能如下。
(1) 電腦科學
一般來說,資料科學家大多要求具備程式設計、電腦科學相關的專業背景。簡單來說,就是對處理大資料所必需的hadoop、mahout等大規模並行處理技術與機器學習相關的技能。
(2)數學、統計、資料探勘等除了數學、統計方面的素養之外,還需要具備使用 spss、sas 等主流統計分析軟體的技能。其中,面向統計分析的開源程式語言及其執行環境 r 最近備受矚目。r 的強項不僅在於其包含了豐富的統計分析庫,而且具備將結果進行視覺化的高品質圖表生成功能,並可以通過簡單的命令來執行。此外,它還具備稱為 cran(the comprehensive r archive network)的包擴充套件機制,通過匯入擴充套件包就可以使用標準狀態下所不支援的函式和資料集。
(3)資料視覺化(visualization)資訊的質量很大程度上依賴於其表達方式。對數字羅列所組成的資料中所包含的意義進行分析,開發 web 原型,使用外部api 將圖表、地圖、dashboard 等其他服務統一起來,從而使分析結果視覺化,這是對於資料科學家來說十分重要的技能之一。將資料與設計相結合,讓晦澀難懂的資訊以易懂的形式進行圖形化展現的資訊圖(infographics)最近正受到越來越多的關注,這也是資料視覺化的手法之一
研究生院的成立
位於伊利諾伊州芝加哥郊外埃文斯頓市的美國名牌私立大學——西北大學(northwestern university) ,就是其中之一。西北大學決定從2012 年 9 月起在其工程學院下成立乙個主攻大資料分析課程的分析學研究生院,並開始了招生工作。西北大學對於成立該研究生院是這樣解釋的: 「雖然只要具備一些 hadoop 和 cassandra 的基本知識就很容易找到工作,但擁有深入知識的人才卻是十分缺乏的。
擴充閱讀
《資料之美》 (beautiful data,toby segaran、jeff hammerbacher 編著, o』reilly 出版 a)
《大資料時代》讀後感(一)
1.很多大資料的應用都是做 比如google的flu target公司對懷孕婦女的 電商 上越來越精準的推薦也是一種 2.當資料變得容易採集,當可採集的資料量大到一定規模,當大資料量的計算能力大大提高,感覺確實很多過去做不了的事情可以做了,原來的一些思維要被打破 3.當然大資料並不意味著不要資料的精...
《寫給大家看的大資料》讀後感
這是第一次看 達人迷 系列的書,基本屬於科普類的,不涉及深入的技術,主要是普及概念,以及介紹業界生態。讓讀者對 大資料 有乙個比較直觀的認識。it相關人員都可以讀一讀。書中介紹了大資料的演化過程,大資料技術的架構方式,各個元件的功能,整體大資料技術的運作方式,以及未來的趨勢。書中提及的大資料各個方面...
海量資料儲存讀後感
讀了 的海量資料儲存系列,感覺豁然開朗,見地提公升了很多.現在簡單用自己的話總結一下裡邊的 精髓 第一 二章內容比較簡單.第一章給了我們乙個模型.他是乙個三層結構.模型如下 使用者api 關係代數和事務引擎 k v 儲存.使用者api就是我們使用sql,結構化查詢語言.這個對少有的資料庫知識的人來說...