《駕馭大資料》一書作者bill franks是teradata公司全球合作夥伴計畫的首席分析專家。基於teradata公司的行業地位,以及對大資料分析的興趣,我在京東**購買了此書,並利用大約1周的空閒時間完成了閱讀計畫。
注意到這本書的序言之前還有一篇題為《駕馭未來的價值發現之旅》的短文,其作者辛兒倫先生是teradata大中華區首席執行官。也注意到該書序言的作者則是本書作者供職的一家研究所的創始人。特別注意到該書封面尾頁,中國電信業三大巨頭(移動、聯通、電信)的董事長每個人都寫了一段話。這讓我感到這本書不純粹是為了討論大資料分析,還可能是一種商業推廣。因此我在閱讀的過程中也在思考teradata技術的要點。
該書對大資料採取的是一種動態的定義。大概的意思就是,既然10年前的大資料在今天看來什麼都不是,那麼今天的大資料在若干年後很可能也就什麼都不是了。引用文中的一句話就是「今天的大資料將不再是明天的大資料」。文中討論了今天我們面臨的一些個大資料來源及其價值:車載資訊、文字資料、時間位置、rfid、智慧型電網、籌碼跟蹤、感測器、遙測資料和社交網路資料。讀到這些內容,我感到不必等到「明天的大資料」到來,今天的大資料已足夠「恐怖」了,誰來保護人們的隱私呢?書中提到了「蒙面分析」的理念,例如,用無意義的數字代替有意義的身份標識。這多少能打消一些顧慮,但是隱私保護終究是大資料應用繞不過的話題呢!
書中專門闢一章討論了處理今天的大資料的那些個技術,例如mpp和mapreduce。唉,這回總算是明白了二者的區別了:mpp指的是資料庫技術,mapreduce指的是程式設計技術。但是,我沒有想明白的事情是,難道資料庫不是程式設計序編出來的麼?把這兩概念放一起說事的傢伙真是害人不淺啊!作為彌補,或者安撫,書中有兩個觀點很是值得一提,乙個觀點是「很多大資料其實並不重要」,重要的是將大資料中有用的資訊提取出來,提取出來的「資訊」自然是結構化的了,然後呢?絕大多數情況下,除了關係型資料庫(rdbms)還能有誰更適合擔此重任呢?這就引出了第二個觀點:不要低估sql!
這本書的亮點是關於資料分析的內容,包括:分析工具、分析方法、如何成為優秀的分析專家、打造優秀的分析團隊和營造創新文化等內容。其中提到了優秀分析專家身上經常被低估的特質:承諾、創造力、商業頭腦、演講能力與溝通技巧和直覺。其中還提到了統計、資料和程式設計技能是「絕對必要」的。這為組建分析團隊提供了參考,也回答了分析師究竟要不要程式設計的問題。值得注意的是,書中也談到了「報表」和「分析」的區別。許多企業陷入了「報表=分析」的誤區,其結果可能就是it人員苦於維護500個報表(這些報表一般就是分析過程中產生的了),卻不知這500個報表已經沒什麼用處了。還有乙個值得一提的是「分析沙箱」的理念,平衡了分析和運維。
以上主要是闡述了閱讀過程中看到好的方面,最後也要談一談也許是不好的方面。在書中有兩個重要的思想:一是庫內分析,二是以分析師為中心。庫內分析倡導利用系統架構的可擴充套件性,直接在資料倉儲內進行分析工作,一開始這樣做會取得更好的生產力,但是如果管理的不善的話(大概是很難管理有善了),會形成計算節點加速擴張的局面,當節點個數擴充到1000臺以上時(也許到不了1000),要面臨混亂和失控。節點擴張失控局面受益者會是誰呢?顯然是廠商啊。庫內分析另外乙個問題是安全,當數百個分析師工作在數千台節點上時,如何保障資料安全(例如:隱私)?以分析師為中心的理念是好的,問題是優秀的分析師很難找,再有就是分析師終究是「人」,人的響應速度有限。整個資料體系圍繞分析師構建必然要面臨響應速度慢的難題。書中提到了乙個很好的例子就是哥白尼發現太陽是中心,但不意味著地球不重要。我想分析師做地球會合適一些吧,太陽是什麼還要再想一想啊!
駕馭大資料
資料庫儲存與管理 更多關於 駕馭大資料 內容簡介 書籍計算機書籍 駕馭大數 為讀者提供了處理大資料和在你的企業中培養一種創新和發現的文化所需的工具 過程和方法,描繪了乙個易於實施的行動計畫,以幫助你的企業發現新的商業機會,實現新的業務流程,並做出更明智的決策。駕馭大數 主要介紹了如何駕馭大資料浪潮,...
《大資料時代》閱讀筆記
此筆記包括摘錄和心得,黑色字型為摘錄,紅色字型為心得。1,google 禽流感的案例說明的道理 以一種前所未有的方式,通過對海量資料進行分析,獲得有巨大價值的產品和服務,或深刻的洞見。2,大資料有點類似博弈論,最終結果都是影響使用者的最終判斷。而大資料是理性的,有海量事實資料來支撐,但建模的精準度又...
駕馭大資料第七章部分內容
原著 bill franks 第七章標題 what makes great analysis 譯文 7.1分析與報告 許多組織認為分析與報告是一回事。這種觀點看起來好像對,我們在深入討論一下。報告很重要並且很有價值。如果報告準確無誤,那麼價值將會增加。但是報告有它的侷限性,我們必須知道這個侷限性是什...