聊一聊大資料的問題和缺陷

2021-08-18 03:02:30 字數 2462 閱讀 4556

多虧了

大資料和雲計算

,可以讓企業使用超級計算機的力量。而人們面臨的問題是用來分析和應用大資料的工具通常有乙個致命的缺陷。人們進行的大部分

資料分析

都是基於錯誤的模型,這意味著錯誤是不可避免的。當人們誇大的期望超過其能力時,後果可能是可怕的。

如果大資料不是如此巨大,這不會是乙個問題。考慮到人們擁有的資料量,有時甚至可以使用有缺陷的模型來產生有用的結果。這裡的問題是人們經常把結果與全知混淆起來。人們對自己的技術非常迷戀,但是當模型出現故障時,它會變得非常難看,尤其是當資料產生的錯誤是相當大的時候。

大資料失敗的例子

也許最大的和最知名的大資料失敗案例是在谷歌公司的2023年流感趨勢。谷歌於2008推出這項服務,目的是**25個國家的流感疫情。邏輯很簡單:在特定區域分析谷歌關於流感的搜尋查詢。下一步是將搜尋結果與該地區流感活動的歷史記錄進行比較。基於這些結果,活動水平被分為低,中,高或極端。

儘管乍一看,這似乎是乙個很酷的想法,但實際上並不是這樣。在2023年流感高峰期,谷歌**的流感的趨勢悲慘地失敗了。事實上,這個數字是驚人的140%。原因是演算法有缺陷,沒有考慮到幾個因素。例如,如果人們搜尋「冷」或「發燒」這樣的詞,這並不一定意味著他們正在尋找流感樣症狀。他們可能一直在尋找季節性的疾病。對於谷歌流感趨勢不幸的是,它無法從這場災難中恢復過來,最終導致了2023年的崩潰。

大資料失敗的原因

谷歌流感趨勢的失敗並不是唯一的災難。人們不可能列出這些年來所有大資料的錯誤,然而,分析失敗是很重要的,因為可以吸取教訓,不要在功能上重複錯誤。大資料失敗的一些原因如下:

(1)缺乏資料管理和資料管理

組織往往不完全了解他們已有的資料,但他們仍然決定在此基礎上開展新的專案。缺乏關於資料處理的文件、儲存、策略和其他程式。採用大資料諮詢公司的服務是乙個好主意,這樣企業就可以為自己提供乙個清晰的路線圖和指導,說明如何處理已經擁有的資料,然後才能克服大資料的挑戰。

(2)未定目標和戰略

這裡有很多it術語和營銷術語,而且在白雜訊中難以理解。此外,市場上還有很多大資料產品,選擇合適的產品真的很困難。企業在決定任何事情之前,找出實現目標所需的服務和技術非常重要。「做大資料的小資料」,這意味著企業應該在少量資料上評估其大資料架構,以確保選擇正確的產品。

(3)完全不了解

資料科學和大資料是領域知識,數學,統計專業知識和程式設計技能的複雜組合。然而,同時它也必須具有商業意義。通常,it部門會做出管理層不能理解的變更,反之亦然。為了確保企業了解大資料行為對it和業務領導者都有意義,應該在大資料專案中構建it與業務之間的橋梁。業務人員應該深入參與大資料專案的任何階段。

(4)專案太大太快

當企業第一次開始實施大資料專案時,有很多未定義的因素,比如預算、技術、行動方式等等。當企業很早就開展乙個大專案時,那麼注定要失敗。相反,應該選擇乙個小專案進行,並衡量成功(或缺乏)增量。這樣如果出現問題,將能夠立即注意到它,並在專案結束之前進行必要的調整。衡量企業的進步的好方法是建立概念的原型或證明來驗證其所完成的工作。如果專案早期存在缺陷,推進專案的下一階段就沒有意義了。

(5)缺乏it人才

企業找到和雇用所需要的人才來成功完成乙個專案是一項艱鉅的任務,但處理企業資料的工作人員是整個專案的重要組成部分。而且,他們必須精通新技術,這對於快節奏的it環境來說是乙個挑戰。

從上面的列表中,人們注意到的乙個共同的主題是,無論想要關注資料多少,人們總是受到阻礙。即使人們想要資料來決定決策過程,人們最終還是要管理大資料流程。這包括做出基本決定,例如收集和儲存哪些資料,以及從大資料中尋找哪些答案。

通過迭代創新

當決定進行大資料專案時,許多組織感到束手無策,這就是為什麼採用迭代方法處理大資料至關重要。組織應該嘗試設法讓員工自由地嘗試資料。事實上,最重要的大資料技術是開源的,這個「開始小,失敗快」的方法得到了加強。而且,很多平台可以立即以經濟實惠的方式訪問雲服務,從而進一步降低了試用和錯誤的方法。

大資料就是要問正確的問題,所以依靠現有的員工是至關重要的。但是,即使擁有較高的領域知識,組織也不會糾正必要的資料,從一開始就不會提出正確的問題。這種失敗應該被接受和期待。

由於企業的大資料專案的早期階段可以制定或顛覆整個事情,這就是聽從大資料諮詢公司的建議可以獲得真正回報的地方。他們可以為企業建議如何建立概念的原型和驗證,進行基準測試,幫助建立微服務架構,並幫助企業遷移到新技術。採用靈活的開放式資料基礎設施是非常重要的,這種基礎設施可以讓員工不斷修改和完善他們的方法,直到他們獲得成果。這樣,組織就可以消除恐懼,可以迭代有效地利用大資料。

bingdata

優網助幫

匯聚多平台採集的海量資料,通過大資料技術的分析及**能力為企業提供智慧型化的資料分析、運營優化、投放決策、精準營銷、競品分析等整合營銷服務。

聊一聊元資料

這個話題來自我的msn space。這是原文 元資料 metadata 這個詞現在到處氾濫。其實我對元資料充其量只能說有自己的理解而已,並不能確信這個理解是正確的。我認為,資料結構分為三個層次 uml可是四層哦 例項層 直接描述特異化的資料場景 元資料層 描述例項的結構的一組資料 元資料的元資料層 ...

聊一聊hive資料傾斜

info基本資訊表 user id name agegender 1henry16男 2jack17男 3anny18女 4candy19女 5kate20女 burke 21frank 22ellen 23ken 24mili 25.score成績表 user id subject id scor...

聊一聊資料結構

資料結構 2.棧和佇列 二 樹三 圖 線性結構是一種基本的資料結構,主要用於對客觀世界中具有單一前驅和後繼的資料關係進行描述。線性結構的特點是資料元素之間呈現一種線性關係,即元素 乙個接乙個排列 線性表常採用順序儲存和鏈式儲存,主要的操作是 插入 刪除 查詢 線性表的順序儲存是指用一組位址連續的儲存...