資料湖的實施可以為分析所有型別的外部和內部資料,提供巨大的靈活性—必需具備三大要素。
格雷普韋恩,德克薩斯州——像任何其他工具或技術一樣,資料湖是一種儲存庫和處理引擎,有它的優點和缺點。它的著名優點之一是,可以在不犧牲資料格式的情況下,攝取資料,為資料科學家提供更大的靈活性。
「將資料湖看作為你的疑問開發環境:你不知道你的疑問是什麼,」 nick heudecker說,他是gartner的分析師。資料湖讓你探索你所不知道的,從乙個疑問引發另乙個疑問。
缺點?沒有適當的技能、整合和資料治理,資料湖的實施會迅速成為資料管理的噩夢。在最近舉行的gartner business intelligence and analytics summit 上,heudecker在他的演講中列舉了健全的資料湖的三個特徵。
技能資料科學家是任何資料湖中的必要因素。「他們擁有較高的領域理解力,較低的it技能,但是你僱傭他們是因為資料分析技能,」heudecker說。
但是資料科學家並不是實施資料湖所需的唯一技能。heudecker還指出:
資料工程師,運用資料科學家的研究發現,並與業務部門緊密合作;
業務專家,提供上下文;
軟體工程師,專注於資料湖實施的具體細節
平民資料科學家,並不是必需的,但可以作為資料科學家的補充,即使他們的技能不完全成熟,能夠完全勝任這個職能。
「資料科學是一項團隊任務,」heudecker說。「如果你想要乙個成功的資料湖,你必須擁有乙個成功的團隊。」
整合it部門需要考慮如何把資料——從內部,以及越來越多的外部**——彙總到資料湖中,這就意味著將湖與it基礎設施的其他部分相整合。
這就要求正確的資料初始分類和索引,以及資料安全,heudecker說。此外,cio還不得不考慮分析技術。一些資料湖技術——比如hadoop——可能「不支援高併發性和多租戶,」heudecker說。「他們可能不適合你選擇的商業智慧型平台或控制面板工具。」
heudecker認為,資料分析也可以在資料湖外部產生,比如使用mysql,sql server或mongodb資料庫。
資料治理和資料質量
資料治理和資料質量是確保分析正確的關鍵,但它們的標準和應用與傳統環境中有所差別。太多可能會妨礙資料湖的分析發現;太少可能會給企業帶來麻煩。
為了找到合適的界限,heudecker推薦it部門考慮資料基數,或資料與其他資料之間的關聯,以及資料沿襲,或者「你是如何處理資料的,資料從何而來,誰改動了它,為什麼,」他說。「我認為你可以放棄其他元素的治理,至少當你處於資料湖環境中。」
heudecker認為資料質量是資料湖中的「重大挑戰」。他說,it部門應該建立目錄和「社交化」資料集,將其作為員工之間的一種溝通方式,它們的相關資料質量和它們的用處。
在實施資料湖之前,it部門應該考慮業務的目標,資料湖將如何幫助實現這些目標,以及是否擁有必要的技能。
「你不必將數百萬美元投資到這個基礎設施。你可以從雲中開始,你可以從簡便和免費的工具開始,如果你今天沒有資料科學團隊,你可以在實施資料湖的同時打造這一團隊,」heudecker說。
整合大資料價值最大化的三個關鍵因素
在過去的幾年裡,人們從知道大資料的概念,發展到一些組織能夠真正實施一些大資料專案。然而,在一些組織的資料中心團隊負責實施這些業務驅動的舉措之後,現在才開始認識到實現真正大資料整合的複雜性和深度。大資料通過人們生活,工作平台,應用程式,以及裝置提供了多種格式的大量的資料。大量的結構化和非結構化的內容往...
OKR失敗的五個關鍵因素
okr是近年來的乙個熱點話題,這種目標管理法在谷歌體現了它非凡的價值,也因此被facebook linkedin等公司所引用。從實踐成功的案例看來,okr確實是一種可以明確公司目標 促進公司發展的有價值值得去嘗試的管理方法。隨著okr的熱潮湧入國內,不少國內企業也開始紛紛嘗試,希望可以借助這種新的管...
亞馬遜成功的四個關鍵因素
隨著亞馬遜 amazon 逐漸成為全球首家市值達數萬億美元的公司,人們開始重新關注可能阻礙其增長的因素。該公司本季度增長有所放緩,股價 11 亞馬遜是創新領域的新事物,他們行動快,實施了很多的新產品 流程和商業模式創新,以至於他們的功能突然成為每個公司衡量自己是否落後的標準。亞馬遜是未來的新模式。亞...