大資料正在改變世界。但是,大多數大資料專案搞著搞著就黃了,很難成功。這是為什麼呢?
企業正努力在產品中部署大資料,這一點是毋庸置疑的。但是,根據gartner在2023年下半年發布的新聞稿:只有15%的企業將其大資料專案部署到生產中。」gartner在選詞時非常謹慎,這並不意味著剩下的企業沒有實踐,或者資料科學家沒有發現使用大資料技術的優勢,只是剩下的85%的專案並沒有真正投入生產。
問題不在於缺少大資料分析或者是大量的資料科學實驗。真正的挑戰是缺乏大資料自動化能力,以便將實驗版本從沙箱推入功能齊全的生產環境中。
大多數人認為分析生產就是調整集群。當然,可以編寫乙個sqoop指令碼並將**放入一次。但是,在不影響源系統的情況下多次實現則是乙個挑戰。然後,必須確保構建的資料管道在由服務級別協議(sla)設定的時間範圍內提供資料。此外,資料模型需要針對使用者當前正在使用的工具(如tableau,qlik等)進行優化,以達到使用者所期望的響應能力。
在hadoop和spark之上使用工具進行大量的努力和改進以對大型資料集進行快速原型設計。但原型是一回事,建立每天執行而不發生故障的資料工作流程,或者在資料流作業失敗時自動啟用恢復,又是另外一回事。
1、無法快速載入資料以滿足sla
雖然像sqoop這樣的工具支援資料讀取的並行化以從傳統資料來源獲取資料到資料湖,但需要專家來使其正常工作。如何劃分資料?要執行多少個容器等問題都需要專家給出合適的解決方案。如果無法正確處理並行資料的讀取,則乙個小時就可完成的任務甚至需要10到20倍的時間,因為大多數人不知道如何正確調整。
2、不能逐步載入資料以滿足sla
3、不能以互動方式提供對資料報告的訪問許可權
想象一下,如果有1000位商業智慧型分析師,他們都不想使用您的資料模型,因為他們需要很長時間才能查詢。這是hadoop的乙個經典問題,也是許多公司僅使用hadoop進行預處理和應用特定機器學習演算法,但隨後將最終資料集移回傳統資料倉儲以供bi工具使用的原因。無論如何,這個過程又為成功完成大資料專案增加了難度。
4、不能從測試遷移到生產
許多企業能夠確定沙箱環境中資料科學家的新見解的潛力。一旦他們確定採納新的分析方法,就需要從沙盒轉移到生產環境。從開發轉移到生產是乙個完整的公升降和換擋操作,通常是手動完成的。雖然它在開發集群上執行良好,但現在相同的資料管道必須在生產集群上重新優化。這種調整往往需要大量的返工才能有效執行。如果開發環境與生產環境有任何不同,則情況尤其複雜。
5、不能管理端到端的生產工作量
大多數企業都將注意力集中在工具上,因此他們的資料分析師和科學家可以更輕鬆地識別新的方法。但是,他們沒有投資類似的工具來執行生產環境中的資料工作流程,因此不得不擔心啟動、暫停和重新啟動過程,還必須擔心確保作業的容錯性,處理通知以及協調多個工作流以避免「衝突」。
為什麼你的大資料專案會失敗
引言 近年來大資料 人工智慧概念喧囂塵上,各類 大資料應用 層出不窮。這些融合了海量資料 高效能計算平台 智慧型演算法 酷炫的資料視覺化效果的企業級大資料應用產品成為了企業的新的寵兒。大平台 微應用 資料智慧型應用 一時間,大資料應用建設專案如雨後春筍般湧現,但在目前大部分的商業實踐中我們看到,傳統...
大資料 專案流程
1.資料的預處理階段 2.資料的入庫操作階段 3.資料的分析階段 4.資料儲存到資料庫階段 5.資料的查詢顯示階段 reduce driver create table 表名 videoid string,uploader string,age int row format delimited fi...
大資料專案3
gmv 今天提交訂單的金額總和,不管是否支付 全站pv 頁面瀏覽量大砍一次就是乙個pv再重新整理一次又是乙個pv 全站uv 去重的訪客總和set mapreduce.framework.name local 本地 set mapreduce.framework.name yarn yarn set ...