文章講的是informatica幫助您釋放「暗資料」潛能,
在自然界中有一種物質叫做「暗物質」,從物理學家的解釋來看,「暗物質」是自然界當中最充滿能量的部分,如何發揮「暗物質」的作用是當代自然科學研究的話題。而在資料科學領域,人們都在討論如何發掘隱藏在企業內部和整個網際網路上巨量的「暗資料」,怎樣發揮「暗資料」的價值。
有一種說法,人類只要利用大腦的 10%,就可以實現長生不老。即便在無數神經學家將其斥為胡編亂造的無稽之談,多年以後,我們還是不會放棄這種念頭,因為我們知道自身還有很多潛力沒有發揮,只是有待發掘。同樣,許多企業也僅利用了資料的一小部分,而把經過巨大的開銷儲存著的關於流程、員工、客戶和產品的寶貴資料放在資料孤島中,無法有效利用。我們對資料的挖掘還處在乙個非常初級的階段,可將其稱之為「黎明前的黑暗」階段。
定義「暗資料」
「暗資料」是指企業已付費購買、收集以及儲存在各種系統和資料儲存中,但實際上目前並未使用、分析甚至訪問的所有資料。我們可以將「暗資料」視為大資料的子集,它可以包括儲存在 crm 資料倉儲的結構化資料、日誌檔案甚至來自於社交**的非結構化資料等所有資料。
當然,有些企業已經實施資料倉儲或者大資料平台,清楚資料的存在,並正在發掘資料的價值,但他們依然存在暗資料的問題。因為實施資料倉儲常常是站在it的角度,對於it來講或許已經是可以利用的明資料,對於其它部門,尤其是業務部門如果沒有充分有效的利用手段和方式,仍然是「暗資料」。如果您實際上無法利用付費購買的資料,那麼最終您就無法對企業的整體行為形成一致觀點。這意味著您將無法分析流程、合理配置資源,也無法在系統中找到代表您的專有優勢的資料。
「暗資料」產生
顯而易見, 沒有任何組織主動採取低效、 昂貴和不明智的措施。但一系列新應用程式和大量新資料已使很多公司忽視了他們已經擁有和付費購買的資料。為何會有這麼多「暗資料」存在?我們從以下四點來解釋:
1、企業甚至沒有意識到資料的存在
企業不止有it部門,還有更多的業務人員、管理決策人員,當他們嘗試解答疑難問題或改進工作方式時,會迴避尋找並分析自己不熟悉的資料集的挑戰,這種情況十分常見。不幸的是,往往由於缺乏技能、時間或能力,他們很難將正確的資料公諸於世,這在日常的工作當中是非常典型的一種場景。舉例說明,有些企業表示不清楚到底有多少客戶,這是真的嗎?回答是否定的,因為現在的企業it已非常完善,每一筆客戶的交易資訊都會存在系統當中,或許有些資料質量不是很好,但它們都是存在的,只是企業自己沒有意識到。如果這些資料以整個組織都能訪問的方式儲存,就能為更多業務部門、專案團隊提供支援,進而制定更明智的決策,並對更多假設進行測試。
2、企業意識到資料的存在,但不知道具體位置,利用的手段和方法也不足
企業已經建設了很多資料管理系統,知道資料是存在的,但如果組織的資料體系結構或複雜的資料流程起到阻礙作用,那就很難訪問資料。如果各個部門都在資料孤島中工作,並且資料儲存在遺留資料儲存中,那麼即使是求知慾最強的團隊也會徒然碰壁。如果沒有制定關於儲存和管理所有這些資料的整個企業範圍的戰略,那麼組織的決策質量仍將受制於內部組織架構和過時的技術。
3、實際利用資料過於昂貴阻礙了資料使用的效果
即使企業已經發現了所需的「暗資料」,通常也必須面對與在遺留系統上處理這些資料相關的一連串成本問題,如資料利用的環節過長。即便他們通過使用hadoop此類的新軟體架構,在**較低廉的硬體上覆制這些資料來努力避免這些成本,但與遷移流程和獲取新技能相關聯的初始成本對於單個專案而言,通常仍顯得過高。這也造成了很多的資料其實仍然是未被充分使用的狀態,仍然隱藏在我們的it系統和日常流程當中。為了充分利用企業已擁有的資料,需要為更現代化的資料體系結構奠定基礎,否則,您仍會繼續為資料支付鉅額費用,卻無法承擔對其進行分析產生的成本。
4、某些資料存在遵守法律的問題
如金融、電信、醫療等行業的資料量非常多,但無法將某些資料提供給任何人分析,最重要的原因之一是害怕違反法律法規的要求。對於企業而言,要使其擁有的資料具有意義,需要部署明確定義的流程和工具,以保證這些資料的安全性。informatica 有專門的解決方案,叫做資料脫敏(data masking),保證資料隱私不被洩露的情況下充分利用資料。
公開「暗資料」
既然我們面臨著非常多的「暗資料」,那麼公開就是它的對立面,叫做資料的透明化,我們期望的結果是企業中所有資料,對企業的任何乙個參與者——it、業務、決策、財務——都是透明的,在他們想分析的時候都能找到所需的資料。
任何企業在發掘資料價值的時候,往往包括三種典型的角色:整合商、it部門和業務部門。人們常常討論誰才是資料的主人,一般認為是業務部門,但完成實際操作過程的卻是整合商,似乎所有的報表都是整合商來做,所有的分析也是整合商完成。在資料分析資料使用中有乙個常常被大家忽略的過程,被稱為資料的探索和探查的過程也是由整合商來完成。這其實是業務模式的乙個致命弱點,由整合商完成資料探查工作,再根據業務或者it提的報表分析需求來使用這些資料,使用資料的主體——業務部門並沒有參與探索資料,並沒有親身體驗分析資料的過程。
業務部門參與資料探勘對資料價值的實現大小關係密切。如果找整合商來做大資料平台可能也叫big data,但這個「big」很小;假如it部門能充分參與架構設計和資料的探索過程,這個「big」會變得大一點;假如業務部門也參與可能使「big」變得更大,資料在企業中的流程也會縮短,業務部門會知道資料的存放位置,「暗資料」問題能夠更快解決。
業務部門如何才能自我分析資料,實現自助服務?他們需要乙個有效的it支撐手段,需要it把暗資料透明化,變成透明的資料。實現資料透明化的乙個基礎是資料標準化,建立標準化平台。暗 數 據存在於不同系統中,需要重新格式化、解析、篩選、標準化、整合以及細 化, 使 其 為 輸 入 到 任何分 析 工 具 和 應 用 程 序 中 做 好準備。
真正釋放「暗資料」潛能,讓資料見光需要一定的策略變化,除了上述的要啟動業務部門的自助服務的能力,以及啟動it部門的標準化構建,還有乙個關鍵點是啟動可重複利用「暗資料」的流程。大多數公司所犯的最大錯誤是認為他們只需對其「暗資料」進行一次深入**,這可不止是乙個一次性的流程。資料只會不斷增長,無論是規模、多樣性還是價值,提供資料的應用程式的數量和型別也會不斷變化,因此,與其一遍又一遍地解決單個「暗資料」專案,應該考慮建立乙個可重複的流程。這意味著採用所需技術,建立現代化的基礎架構,以使您的所有資料隨時可供訪問並保持一致,使其保持潔淨、安全、互聯互通。
「暗資料」並非僅僅表明技術開支效率低下,它還表明企業難以利用其積累起來的豐富知識,「暗資料」是乙個有待發掘的潛在金礦。在我國當前新型工業化程序中,提倡大資料的前奏叫數位化,數位化能夠貫通各個環節,把原來可能隱藏在工業流程當中的資料釋放出來,用資料來描述工業流程,這也成為眾多領先企業希望征服「暗資料」的原因所在。
scrum 角色可幫助您了解誰負責什麼
每個 scrum 團隊必須填充三個角色。第乙個角色是我們最熟悉的角色 開發團隊 團隊中的人可能有不同的專業領域,甚至可能在公司有不同的職稱,但他們都以同樣的方式參與 scrum 活動。還有兩個由團隊成員擔任的非常重要的角色 產品所有者和scrum master。scrum 團隊至少需要三名成員,通常...
Informatica常用元件
1.表示式轉換元件 expression expression 屬於被動元件型別 passive 是一種行級表示式,不改變資料行數,功能強大,操作簡單。主要在以下情況下應用 2.篩選器轉換元件 filter filter元件屬於主動元件型別 active 按照過濾條件過濾當前流入資料。source ...
informatica簡易教程
一 環境配置 1.informatica的元資料 賬號 密碼 資訊儲存在oracle上面 2.linux下在infa bin裡有informatica的啟動指令碼startup infa.sh 3.修改windows主機的hosts,位址c windows system32 drivers etc ...