《大資料的衝擊》讀後感總結

大資料難以管理的原因，可以用 3v 來描述，即volume（容量）、variety（多樣性）、velocity（產生頻率、更新頻率）。從廣義上來說，大資料可以定義為包括因具備 3v 特徵而難以進行管理的資料，對這些資料進行儲存、處理、分析的技術，以及能夠通過分析這些資料獲得實用意義和觀點的人才和組織的綜合性概念。

大資料出現的前提,從技術方面來看，硬碟**下降，nosql 資料庫等技術的出現，使得和過去相比，大量資料能夠以廉價高效的方式進行儲存。。此外，像 hadoop 這樣能夠在通用性伺服器上工作的分布式處理技術的出現，也使得對龐大的非結構化資料進行統計處理的工作比以往更快速且更廉價。

資料科學家所需的技能

資料科學家所需的技能如下。

（1）電腦科學

一般來說，資料科學家大多要求具備程式設計、電腦科學相關的專業背景。簡單來說，就是對處理大資料所必需的hadoop、mahout等大規模並行處理技術與機器學習相關的技能。

（2）數學、統計、資料探勘等除了數學、統計方面的素養之外，還需要具備使用 spss、sas 等主流統計分析軟體的技能。其中，面向統計分析的開源程式語言及其執行環境 r 最近備受矚目。r 的強項不僅在於其包含了豐富的統計分析庫，而且具備將結果進行視覺化的高品質圖表生成功能，並可以通過簡單的命令來執行。此外，它還具備稱為 cran（the comprehensive r archive network）的包擴充套件機制，通過匯入擴充套件包就可以使用標準狀態下所不支援的函式和資料集。

（3）資料視覺化（visualization）資訊的質量很大程度上依賴於其表達方式。對數字羅列所組成的資料中所包含的意義進行分析，開發 web 原型，使用外部api 將圖表、地圖、dashboard 等其他服務統一起來，從而使分析結果視覺化，這是對於資料科學家來說十分重要的技能之一。將資料與設計相結合，讓晦澀難懂的資訊以易懂的形式進行圖形化展現的資訊圖（infographics）最近正受到越來越多的關注，這也是資料視覺化的手法之一

研究生院的成立

位於伊利諾伊州芝加哥郊外埃文斯頓市的美國名牌私立大學——西北大學（northwestern university），就是其中之一。西北大學決定從2012 年 9 月起在其工程學院下成立乙個主攻大資料分析課程的分析學研究生院，並開始了招生工作。西北大學對於成立該研究生院是這樣解釋的：「雖然只要具備一些 hadoop 和 cassandra 的基本知識就很容易找到工作，但擁有深入知識的人才卻是十分缺乏的。

擴充閱讀

《資料之美》（beautiful data，toby segaran、jeff hammerbacher 編著， o』reilly 出版 a）

《大資料的衝擊》讀後感總結

《大資料時代》讀後感（一）

《寫給大家看的大資料》讀後感

海量資料儲存讀後感

《大資料的衝擊》讀後感 總結

《大資料時代》讀後感（一）

《寫給大家看的大資料》讀後感

海量資料儲存讀後感

相關推薦

《大資料的衝擊》讀後感總結