本文講的是sap sybase全球cto:大資料是個大謊言,
美國富比士雜誌最近發表了一篇i***n khan的署名文章,「the big lie about big data」,i***n是sap sybase公司全球cto,負責sap公司全球的資料庫戰略方向。
▲sap sybase公司全球cto i***n khan
題目很吸引人,甚至可以說有些「聳人聽聞」,但是讀下來,其中有很多觀點倒是和我前一段在「通訊行業雲計算峰會」上發表的一些言論相似,我認為「大資料」這個詞現在非常火,但是某種程度上不過是過去30-40年來對資料管理和資料處理挑戰的理解、認識的新一輪說法。當然,每一輪的說法不一樣也並不是完全意義上的重複,迴圈式上公升,畢竟每一輪的硬體、軟體、網路、業務的關注點都不同,資料量的確是個硬指標,30年前提「資料倉儲」概念時的挑戰和現在的挑戰不可同日而語,10年之後再看現在的「大資料」也許也會一笑而過,到那時,我們似乎才可以明白,這乙個輪迴的真正意義。
天又一次塌下來了。這一次是「大資料」讓it部門如臨大敵。但是就像「世界末日」和「外星人」一樣,「大資料」是虛構的,是乙個「大謊言」。
正如街談巷議的傳聞一樣,不管你走到**,關於「大資料」的討論無處不在。在google搜尋這個片語,搜尋結果超過13億條。它甚至在維基百科擁有專門的條目。資料氾濫導致很多人得出結論:企業將不堪重負。這並不是說企業內部的資訊量不會增長。相反地,企業內部資訊量也難逃增長的命運。因為,大資料一直是個難題。
儘管不斷有人聲稱,資料洪流將導致厄運來臨,但it行業卻始終能夠通過改進計算基礎架構,使它們速度更快、容量更大、**更便宜、體積更小巧,從而讓揮之不去的資訊「大決戰」預言不攻自破。
今天,通過使用列式資料庫分析架構,組織機構可以不必過度對「大資料」帶來的焦慮,相反,還能夠讓「大資料」更好為企業運營服務。在列式資料庫中,使用者可以隨時呼叫和分析大資料集,即使對諸如非結構化資料等各種資料型別的大資料集亦是如此。它們不僅隨時可用,而且執行速度更快,還能根據工作要求,更方便地擴充套件,從而為盡可能多的使用者服務,涵蓋盡可能多的資料。
這種做法其實就是挖掘組織機構內外部的「大資料」,並提取有價值的部分供企業使用。它的目的是讓組織機構更靈活、更具競爭力,提高組織機構的盈利能力。
對於部署乙個分析資料倉儲而言,最重要的步驟之一就是找到質量合格的資料。從資料淨化到採用資料管理總策略——用於確保資料質量的技術已經成熟。獲取最優質資料時還要對其進行內部審核。
·資料延遲:需考慮組織內部資料延遲的三個方面:資料發生時機、事件延續時間、決策所需時間。
·資料關聯:與商業使用者合作確定資料的前後關係,並就使用中的多個資料集建立相互聯絡,同時還需要考慮資料增長率以及重複的**。
·自服務:確定高階使用者如何在不影響it或其他資源的情況下,對用於查詢的資料實施控制。
·首席資料官(chief data officer):指定一名高階職員擔任首席資料官的職務,使其能夠在維持組織治理的同時保證資料的可操作性。
資料質量的重要性再怎麼強調也不為過。以comscore為例,作為一家為電子商務市場提供分析服務和解決方案的雲計算公司,該公司從創立伊始就意識到,網路營銷的重點正從訪客數量轉變為盈利性。comscore的「客戶知識平台」(customer knowledge platform)針對顧客瀏覽網際網路的行為與偏好提供了全方位的觀察視角。該服務追蹤所有願意提供網際網路行為以供分析的使用者,記錄他們在各個**的衝浪以及購買行為。
隨著數以百萬計的網路使用者註冊該服務接受監測,comscore收集到了海量資料。事實上,comscore所分析的壓縮資料達到40 tb以上,每週都會新增接近150 gb。令人印象深刻的是,儘管資料量如此龐大,您卻無需耗費時間焦急等待查詢結果。據comscore工程事業部副總裁ric elert稱,由於上述原因,「我們得以更加迅速地挖掘資料,並為客戶提供結果。這有助於他們提高營銷效率,開發出更多業務。」
此外,該公司使用列儲存技術,實現了40%的壓縮率。comscore表示,若使用傳統方法,儲存成本會比現在高很多。資料倉儲副總裁scott smith說道:「由於我們面對的是海量的資料,壓縮對我們而言至關重要。我們擁有的資料儲量如此龐大,是大多數人從未見過的。」
西班牙airtel vodafone公司的列儲存資料倉儲可根據公司的業務地圖進行資訊組織。儘管很多不同的部門都使用同樣的資料,但airtel vodafone仍然能夠有效保證資訊的一致性和完整性。資料倉儲將資料轉換成知識,通過乙個介面,將現實世界中的事實轉化為有價值的商業情報。準確分析和**客戶行為的能力是airtel vodafone公司整體業務戰略的關鍵所在。
有了列式資料倉儲,使用者可根據工作流(而不是按照企業的層級結構)需要獲取資訊,這提高了員工的工作效率和有效性。換言之,從事市場營銷的使用者與從事財務工作的使用者(舉例而言)使用的是相同的資訊,只是他們接觸資料的角度有所不同,分析目的也各不相同。資料倉儲環境包含了市場營銷資料庫、呼叫系統、客戶服務、全球移動通訊系統統計資料、開票系統、收賬與檢索,以及所有的後勤管理資訊。
如今,airtel vodafone擁有乙個理想的執行環境,能夠滿足各種需求,從而讓儲存在各種執行環境中的資料實現快速、低成本的整合。因此,它可以直接從資料倉儲平台中呼叫有關公司活動的詳細資訊或彙總資訊。基於列儲存的資料倉儲使airtel vodafone公司贏得了市場份額,成為歐洲電信業中的一方諸侯。
當今,分析行業也沒有任何藉口不使用「大資料」。無論是擴大分析資料倉儲、涵蓋數以千計的使用者,還是分析來自各種奇特**的各類資料(如來自社交****的海量非結構化資訊),它們都沒有逃脫的藉口。不要再躲避了,分析行業再也不能躲在「大資料」這個嚇人的怪物身後,因為我們知道,通過使用列式分析基礎架構,就能夠讓「大資料」更好為企業運營服務。
微軟全球MVP教你如何由程式設計師到CTO
微軟全球mvp教你如何規劃程式人生 本文選自 我也能做cto之程式設計師職業規劃 一書 有志者事竟成,做事首先要談做人,作者作為一名軟體行業修煉多年的老兵,為人剛正不阿,自強不息 始終堅持理想,堅持為it技術社群奉獻知識和力量。高陽,連續兩屆微軟全球最有價值專家,微軟 北京 net俱樂部講師,我的摯...
主宰全球的10大演算法
編者按 reddit有篇帖子介紹了演算法對我們現在生活的重要性,以及哪些演算法對現代文明所做貢獻最大。這個表單並不完整,很多與我們密切相關的演算法都沒有提到,如機器學習和矩陣乘法,歡迎你繼續補充。如果對演算法有所了解,讀這篇文章時你可能會問 作者知道演算法為何物嗎?或是 facebook的 資訊流 ...
主宰全球的10大演算法
如果對演算法有所了解,讀這篇文章時你可能會問 作者知道演算法為何物嗎?或是 facebook的 資訊流 news feed 算是一種演算法嗎?如果 資訊流 是演算法,那就可以把所有事物都歸結為一種演算法。才疏學淺,結合那篇帖子,接下來我試著解釋一下演算法是什麼,又是哪些演算法正在主導我們的世界。什麼...