2023年初大資料 雲計算的漫談

2021-09-23 12:50:05 字數 2386 閱讀 5401

最近半年,基本做的事情是在阿里odps平台執行社群的**,比如spark及hadoop等。事情並沒有太多的高深莫測的,想想基本是為了解決使用者的需求,本文主要梳理下我半年一些事情上的思考。

自主研發 vs 開源系統

我的觀點始終保持不變的,當能用社群產品解決問題的,完全就可以用社群的產品,最近1年,spark、docker等技術發展迅速,完全沒有必要去自己寫一套。我認為有兩個情況下需要自己寫,第一,目前的產品無法滿足現在的需求,在阿里(就目前),比如:支付寶大規模圖資料庫,阿里媽媽、搜尋場景下超高緯度特徵機器學習。目前內部用開源的產品做了很多嘗試,均沒有很好解決問題,最後還是自研一套平台(當然實現也不是完全自己搞,部件能用開源的還是用開源)。第二,為了領先研究,有革命性的,比如:量子計算,gpu計算,也就是從理論開始,並沒有特別的業務場景,最後能跨越乙個時代的,不過這個特別難,基本也只有公司營收沒有問題才可能成立研究院之類的部門。目前在大資料領域,華為、星壞,甚至國外的微軟、ibm之類的巨頭都基本是投資hadoop之類的軟體棧,可以說大資料系統是你中有我,我中有你的,小公司還是請直接用hadoop或者用大公司的產品,大公司還是用了hadoop,阿雲當年投資做飛天的時候,hadoop還是嬰兒,只是如今發展實在太快。

sql vs sql+類似spark用scala等作為程式語言

微軟開發出了t-sql或者類似的sql script,使用者可以用其實現自己的業務邏輯,優化層可以優化。如果是spark之類的,那麼優化層不能感知udf層面的邏輯,無法優化,其二中間的會有序列執行的部分,不能做到最優。如果使用者都能用sql script實現業務邏輯,那麼怎麼講都能做到最優。

統一分析型引擎

spark、flink等產品作為統一引擎,能處理etl、流、計算學習、圖計算等各種各樣的場景,這個是甚好的。很多業務為了解決問題往往需要投資很多技術,產品。如:機器學習用mpi,你得去學習寫c/c++ , 流式計算得學習jstorm,一套新的api。這個還不是最大的問題,最大的問題往往是不同產品之間往往需要銜接,資料需要使用者感知的落地,從而系統做起來很複雜。不過對於一些場景,往往是一些特別的場景還是需要專有系統的,如:低延遲的流 高緯度計算 特別的效能的機器學習等。

統一oltp與olap

目前星壞也是號稱可以在大資料引擎上支援傳統資料庫的語法的,甚至可以支援部分的事務。阿里內部一些產品也在嘗試統一。目前oltp與olap的界限也在慢慢模糊,oltp也可以支援快上tb的資料查詢。一般有兩個做法,一套語法,兩個不同的實現,也就是ifelse,對於使用者看起來可能是乙個。另外就是完全一套**實現,此我還沒有看到。對於第一種,可能的實現方案基本是底層用mysql等傳統資料庫作為儲存,上層有dag等決策排程,做到能跨機join。不過目前明確是olap不僅僅就是sql,也許這個事情能解決一部分的需求,但是不可能完全替代傳統的hadoop的。

自建hadoop、emr、odps

目前阿里也是支援emr的,在阿里雲官網都有emr、odps的產品介紹。一般來看,emr、odps肯定比自建hadoop成本低的,因為從原理來講是彈性的,且自己都無需運維,除非公司太黑,收費過高。emr就是hadoop生態的託管服務,使用者可以申請多少個虛擬機器,啥時候多啥時候少來彈性計算的。odps是阿里巴巴自主研發的產品,odps是在物理機器上,使用者租用多少cpu,多少記憶體為資源,在執行中也可以調整quota來實現彈性計算的。目前我是利益相關方,所以就不回答這個問題了。

資料分享

公有雲,私有雲,混合雲

如果我去創業,涉及到it資產之類的,我肯定會選擇放在雲端的。因為我要解決的是自生的業務是否有競爭力,it資產採用最小成本的方案去做,公司也好調頭,解決生存問題。當企業做成一定的規模的時候,我就會思考,放在雲算是否安全,我的核心資料是否會被偷看或者涉密,當我的規模起來的時候,我是否自己搞更加便宜,或者一些無關緊要,但是會佔住大量資源的計算放在雲端。因為目前企業有不同規模的,也對自己的核心業務有不同的資料安全要求的。所以就慢慢就有了很多模式,目前肯定都有市場的。

dt時代的到來

很多人其實不理解這句話,包括我開始也不理解,感覺說等於白說,資料肯定最重要啊,我們做業務系統的時候,資料庫是單點,需要重點保護,掛了**就基本掛了。業務系統的節點一般無狀態,掛幾個沒有關係。今天,我理解這句話的含義是,以前olap的使用者基本就是給企業的高層決策的時候提供一些資料的,或者高層決策的時候也完全沒有資料,就直接拍腦袋了。現在,很多企業,營銷人員甚至**自身都可以基於資料的分析報告計畫下一步的。我現在都帶乙個小公尺手環,發現我上個月平均睡覺時間是0點左右,這個月得提前點。也就是人人都會用資料了,當然不一定是大資料,小公尺手環的資料只有幾k。以後數位化會越來越多,這個是乙個時代的到來。

林林總總也寫了不少,基本是隨筆,這1個小時想到的。這是乙個美好的時代,因為前所未有,也機會無窮。

軟體市場受到大資料 雲計算的雙重衝擊

文章講的是軟體市場受到大資料 雲計算的雙重衝擊,idc的最新半年度全球軟體跟蹤報告顯示,全球軟體市場規模在2012年比上年增長3.6 總數達3420億美元。2012年是軟體市場增長的開始,尤其是資料訪問 分析和交付 協同應用 crm應用 安全軟體以及系統和網路管理軟體等都成為了增長較快的細分市場,對...

人工智慧 大資料 雲計算三者的關係

大資料 大資料,或稱巨量資料,指的是需要新處理模式才能具有更強的決策力 洞察力和流程優化能力的海量 高增長率和多樣化的資訊資產。大資料的核心在於為客戶挖掘資料中蘊藏的價值,而不是軟硬體的堆砌。雲計算 雲計算是基於網際網路的相關服務的增加 使用和交付模式,這種模式提供可用的 便捷的 按需的網路訪問,進...

工業大資料漫談17 雲計算與工業大資料的關係

前面聊了工業大資料與工業4.0和物聯網 iot 的關係,今天來看看工業大資料和雲計算的關係。雲計算這一概念可以追溯到上個世紀sun和oracle提出的 網路就是計算機 限於當時的網際網路條件等多方面的原因,這一提法後來不了了之。造化弄人,後來當雲計算再次 火 起來的時候,雲計算的鼻祖之一sun卻處境...