聚焦大資料收益 主流Hadoop使用者有話說

2021-09-23 08:48:03 字數 2114 閱讀 8137

證明大資料應用和平台業務價值的需求在主流組織中佔據了重要地位,對於it和分析經理們來說,獲取資料價值並非易事。

例如:對於密西根的blue cross blue shield公司來說,大資料部署並不是一時衝動的決定。

beata puncevic是這家醫療保險公司分析總監,負責資料工程和資料管理,她說:「對於很多像我們這樣的組織,大資料還沒有成為運營業務的核心基礎。如果你去對很多人(主管)講,讓他們在大資料平台上投資,你是很難與他們產生共鳴的,這是很大的挑戰。」

puncevic認為,對於blue cross公司和其它醫療保健企業,這些挑戰包括低利潤率、資源和技能儲備問題,還有相對保守的文化問題。低利潤使得很難為技術創新留出錢來。她和她的同事們不得不做很多額外的努力來獲得hadoop資料湖的審批和資金。

puncevic組建了團隊針對資料湖專案開發了投資回報率框架,評估大資料專案的益處。在構建業務案例的過程中,她還關注了三類與it有關的改善,包括:降低資料處理和管理成本,建立更深刻的分析,建立更靈活和適應性的技術架構。

此外,puncevic說她在爭取獲得公司資金支援,用於本階段專案和後續專案階段。「因此,我們不必擔心為了大資料策略的各種方面從個別業務單元獲取資金的問題」。

這種策略很有效,這家底特律的保險公司已經啟動了未來三到五年的大資料平台建設規劃。puncevic上週在美國加州san jose舉辦的2016 hadoop峰會上說,大資料的好處對於整個醫療行業來說是「潛力巨大的」。除了節省it開支,她還提到了降低醫療成本的益處,同時可以改善患者就醫體驗,促進醫學預防工作。所有這些都是通過更好的分析獲得的。

利用大資料獲益之路

大資料的價值為progressive casualty保險公司及其車險客戶也帶來了絕對真實的價值。brian durkin是該公司企業架構組的創新戰略師,他說progressive公司使用hadoop集群增強了snapshot專案,基於從車輛收集到的執行資料獎勵安全未出險駕駛員購險折扣。durkin在另一場分會上表示,自從2023年該專案啟動以來,該保險公司已經發放了價值超過5.6億美元的折扣優惠。

他說:「這不是科學實驗,而是已經在真實發生的事。我們在這方面全身心投入,這對我們的客戶也很重要。」

為了跟蹤參保駕駛員並計算折扣,該集群環境需要收集大量資料進行處理和分析,他們的集群環境與blue cross公司的是類似的,都是基於hortonworks hadoop分布式框架的。progressive公司已經收集了24億資料,集群留存了所有資訊。為了分析駕駛模式,識別壞習慣駕駛的司機並警示他們,durkin認為:「越舊的資料越有價值。所以他們留存了所有資料並對所有歷史資料進行分析。」

處理資料需要大量處理資源,progressive公司部署了許多高階分析工具供公司資料科學家使用,包括sas、r程式語言和h2o。pawan divakarla是該保險公司在美國俄亥俄州mayfield village分部的資料和分析業務負責人,他表示許多業務主管們都樂意為此買單。

他說:「我們公司完全是資料驅動的公司,我們希望人們有主觀動機和想法,但是他們需要用資料證明他們的想法。」

hadoop的**值應用

零售商macy公司執行了bi和分析應用,也是基於hortonworks的hadoop系統,他們為此支援營銷、銷售計畫、產品管理和其它業務運營。每天都有成千上萬的商業使用者訪問數以百計的bi儀錶盤,這是他們做決策需要使用的關鍵功能。

chakrapany說:「你不會只想看到hadoop用作廉價儲存解決方案的,它的價值原不止於此。」

hadoop仍然在逐漸走向成熟,目前還有一些功能比較粗糙。他提醒說,使用hadoop的新使用者應該了解到它有一些不穩定性,有些it管理功能也不太完善。「如果你認為它是絕對可靠的,那麼這種想法是不正確的」。他說,儘管如此他還是認為hadoop可以真正成為企業級的資料分析平台供macy公司使用。

但是,chakrapany並不認為從大資料分析和基於hadoop的bi應用獲益是理所當然的事。去年,他組建了團隊在內部宣講大資料環境的優點,希望遊說更多業務單元使用它。他的團隊還跟蹤hadoop平台產生的業務價值,包括定性和定量兩方面。

chakrapany說:「我們不想只是統計使用者數量和查詢數量,統計分析了多少資料,那些只是數字。關鍵部分在於,這些資料給企業帶來了哪些幫助。」

***********************************=分割線******************************==

大資料 Hadoop簡述

摘要 1個人 doug cutting 2個公司 google cloudera 命名由來 doug cutting 起先給他孩子的1個棕色的大象的玩具的名字 簡短 容易發音 易於拼寫 最初的模組 hdfs 與 mapreduce 後期不斷加入hbase hive等子模組專案,直至最終hadoop泛...

hadoop大資料與hadoop雲計算

hadoop入門課程 hadoop大資料與hadoop雲計算,hadoop最擅長的事情就是可以高效地處理海量規模的資料,這樣hadoop就和大資料及雲計算結下了不解之緣。本節將先介紹與大資料相關的內容,然後講解hadoop 大資料以及雲計算之間的關係,使讀者從大資料和雲計算的角度來認識hadoop。...

大資料時代之hadoop 了解hadoop資料流

了解hadoop,首先就需要先了解hadoop的資料流,就像了解servlet的生命週期似的。hadoop是乙個分布式儲存 hdfs 和分布式計算框架 mapreduce 但是hadoop也有乙個很重要的特性 hadoop會將mapreduce計算移動到儲存有部分資料的各台機器上。術語 mapred...