6個輕鬆用好大資料的絕密秘籍

2021-08-03 16:07:26 字數 3488 閱讀 3923

大資料(big data)又稱為巨量資料,指需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的資訊資產。「大資料」概念最早由維克托·邁爾·捨恩伯格和肯尼斯·庫克耶在編寫《大資料時代》中提出,指不用隨機分析法(抽樣調查)的捷徑,而是採用所有資料進行分析處理。大資料有4v特點,即volume(大量)、velocity(高速)、variety(多樣)、value(價值)。希望大家認真閱讀本篇文章哦~

大資料概念定義:

大資料對於「大資料」(big data)研究機構gartner給出了定義,「大資料」是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。

大資料技術的戰略意義不在於掌握龐大的資料資訊,而在於對這些含有意義的資料進行專業化處理。換言之,如果把大資料比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對資料的「加工能力」,通過「加工」實現資料的「增值」。

從技術上看,大資料與雲計算的關係就像一枚硬幣的正反面一樣密不可分。大資料必然無法用單台的計算機進行處理,必須採用分布式架構。它的特色在於對海量資料進行分布式資料探勘,但它必須依託雲計算的分布式處理、分布式資料庫和雲儲存、虛擬化技術。

大資料需要特殊的技術,以有效地處理大量的容忍經過時間內的資料。適用於大資料的技術,包括大規模並行處理(mpp)資料庫、資料探勘電網、分布式檔案系統、分布式資料庫、雲計算平台、網際網路和可擴充套件的儲存系統。

秘訣一:目標要明確:

就算乙個公司擁有再多的資料,也不能代表它就一定會獲得商業上的成功。只有真正懂得如何利用大資料,了解到公司利用大資料可以達到什麼目標,公司最終才有可能真正成功。在公司在發展過程中往往也會面臨諸多選擇,也只有目標設定明確了,才能夠縮小選擇範圍聚焦精力去發展。企業應時刻保持頭腦清醒,朝著自己定好的目標前進,才有助於公司進行持續長久的良好運作。

不過,luzzi也表示,有時候,利用太複雜先進的資料分析工具往往也會帶來很多問題,不過如果我們能夠通過分析大量的資料來得到最終的結果,那就不用懷疑了,你就幹吧,至少方向肯定是對的。

秘訣二:要區分清楚「森林」和「樹」:

現在,企業可以做到一些他們以往沒有能力做到的事。對於很多公司來說,可供分析的資料更多,可以用來分析資料的工具和方法也比以前更先進方便。公司已經完全有能力去分析和處理他們收集到的大量資料,這對於企業來說或許是件好事,然而,有時候這些資料也會過於分散。

globys公司的olly down表示說,現在,很多公司都傾向於收集精度較高的資料,因為獲得的資料越精確,就越有利於分析受眾群體,也更有利於公司進行相關戰略和產品的調整。不過,公司往往需要花費大量的時間去處理大量的資料,結果卻有可能不盡如人意,所以,在進行資料分析處理時,有時候沒有必要執著於某一棵「樹」長成什麼樣子,而應該注重這片「森林」,要懂得捨小取大。

秘訣三:做好團隊的協調

在大資料的世界裡,最有價值和作用的資料往往十分稀少。要想找到真正有價值的資料,就如同大海撈針一樣困難。所以,為了找到這些有價值的資料,企業內部應齊心協力通力合作,要經常保持有效的溝通和協作。

例如,為了能更好地利用資料來分析公司的實際運營情況,資料專家們應該了解公司決策者為公司制定的戰略目標。反過來也一樣,公司決策者也應該知道,公司的資料團隊得出的分析結果,最終能給公司帶來什麼收益。

luzzi 表示,以大資料作為工具,他可以建立模型來幫助公司做出商業決策。由於公司決策者對公司整體運**況及所處商業環境更加了解,當決策者看到分析結果時,肯定能看到一些他看不到的地方。但同時,決策者們也不會知道他是用什麼方法得出這些資料和結果的。

olly downs也說,公司的資料團隊和各部門以及管理層應保持良好的溝通交流,這樣公司才能良好高效的執行,有效的協調配合需要通過有效的溝通交流來實現。有乙個商業智慧型團隊為**公司的客戶流失率建立了乙個模型,由於大家缺少有效的溝通,操作團隊認為這個模型「很有趣」,但是公司卻認為這個模型沒有任何意義。

「如果你的公司僱傭了乙個資料研究小組,他們宣稱自己建立了乙個有效的模型,可是公司別的相關部門卻認為這個模型沒有效果,原因便在於二者之間缺乏溝通。」downs表示。

秘訣四:用機器代替人工:

機器學習指計算機模擬或實現人類的學習行為,以獲取新的知識或技能,從而對自身功能進行改進。機器學習相比人工學習,速度更快,學習規模也更大,乙個公司能通過機器學習較快地發現新的問題。

比如,為了研究特定消費者的消費行為模式,企業可以研究用什麼樣的方式對單個消費者進行研究分析,依據不同的消費者選擇不同的模型,進而對消費者行為進行追蹤研究。公司認為,在單個消費者身上所需的分析時間是10分鐘,按照這個速度,公司共有260萬消費者需要調查追蹤,需要416000個分析員,每天工作10小時,每天觀察單個消費者8次,才能得出結果。顯然,如果真通過人工分析,那就需要花費太多的時間和精力了。

所以,downs認為,企業如果有大量的資料需要進行分析處理,最好的辦法就是讓機器代替人工來做,機器學習的速度很快,能在短時間內同時分析大量的資料,這樣一來,所需的分析時間就會大大縮短。與人工分析相比,成本也會大大降低。

秘訣五:要謹慎對待資料

有時,企業是沒有能力去獲取資料的,也就沒法用資料去解決問題。就算公司獲得了一些資料,他們往往也不清楚這些資料最終能否解決他們的問題。

在這一點上,維亞康姆集團的luzzi的建議是,乙個資料是否有效,是否能幫助公司解決問題,最好詢問資料小組的意見。

dunnhumby公司會對消費者資料進行統計和分析,這樣一來公司便可以了解到哪些資料是有用的,以及這些資料有多大價值。如果公司能收集到有價值的資料,公司實際經營中遇到的相關問題就能得到有效解決。知名市場顧問公司dunnhumby的 ceo andy hill表示,企業不僅應該了解收集到的資料到底能解決哪些問題,更應該知道,哪些問題還不能通過這些資料得到解決。如果還有一些問題解決不了,公司便需要繼續收集其他維度的資料來補充。

有時候,重要的資料可能會被忽略。比如,當downs為他的前東家搭建交通情況模型時,大家普遍認為天氣是**交通狀況的最重要因素。後來研究結果卻顯示,最影響那個地區交通狀況的是當地學校的放學時間。當學生們放學時,堵車情況尤為嚴重。

downs說,從一開始的假設來看,我們並沒有預見到會得出這樣的結論,所以,應謹慎認真對待資料,資料會真實客觀地告訴你想要的答案。有時,資料能告訴你的會讓你大吃一驚。

秘訣六:要避免得出錯誤的結論:

由於人為主觀因素和不相關資料的干擾,有時候得出的結論往往是錯誤的。

「不要讓不相干的資料影響到整個結果,有相當一部分的資料並不重要,這些不相關的『樹』往往並不能代表整個『森林』。」luzzi說,「如果使用了錯誤的資料,得出的結論往往也是錯的。」

資料選擇上的錯誤會影響人們解決問題的過程,也會影響人們如何看待這些資料和結果。錯誤的資料選擇可能影響到公司做出相關決策。

dunnhumby 公司的ceo andy hill表示:「為了消除資料上的誤差,你需要準確找到特定的目標人群,這些人的行為往往可以準確地回答你需要解決的問題。」

6個用好大資料的秘訣

這篇文章裡,有三位來自不同公司的大資料運營人員各自分享了他們運用大資料的經驗。這三位是來自維亞康姆 viacom 的luzzi globys公司的olly downs以及知名市場顧問公司dunnhumby的ceo andy hill。秘訣一 目標要明確 就算乙個公司擁有再多的資料,也不能代表它就一定...

6個用於大資料分析的最好工具

在大資料和大資料分析,他們對企業的影響有乙個興趣高漲。大資料分析是研究大量的資料的過程中尋找模式,相關性和其他有用的資訊,可以幫助企業更好地適應變化,並做出更明智的決策。一 hadoop hadoop 是乙個能夠對大量資料進行分布式處理的軟體框架。但是 hadoop 是以一種可靠 高效 可伸縮的方式...

關於大資料,你不知道的6個迷思

過去兩年,在 netflix 以行為分析為基礎打造的美劇 house of cards 紙牌屋 爆紅的同時,大資料也成了現代企業經營的顯學。無論是消費 金融 電信 交通,甚至是政治 慈善,所有的研討會上,一定可以看到大資料的身影。似乎人類組織有史以來的行銷 管理等問題,有了 data,全部都可以解決...