在筆者持續調研國內hadoop生態系統生存現狀的同時,kdnuggets發布的2023年資料科學和機器學習工具調查報告再次將「hadoop失寵」言論復活。報告一出,「hadoop被拋棄」幾個字瞬時成為各大標題黨的最愛,充斥在不同的新聞平台。這些報告和資料是否足以動搖hadoop在國內大資料領域的事實標準地位?本身並不擅長處理olap計算和ms級延遲要求的流計算,這是否會成為企業棄用hadoop的重要原因?對於繁多的元件和搭配,企業傾向於哪種組合方式呢?
本期走訪物件:蘇寧易購。作為新一代b2c網上購物平台,經過了多年大小促的流量高峰考驗,蘇寧易購的大資料平台是如何搭建的?對於hadoop生態的各類元件,蘇寧易購如何取捨呢?
蘇寧易購決定選用hadoop:成熟、穩定、成本可接受!
大部分企業在進行技術選型時都會考慮成本與需求,迫切地希望知道同型別企業的選型方案,最終對可能的幾大方案進行全方位調查,得出最符合企業自身業務發展訴求的方案。蘇寧易購首先考察了hadoop生態與自身業務需求的契合度,hadoop可靠、易擴充套件,集海量資料儲存和計算於一體(正如apache hadoop專案官網所描述的)。從成本方面來看,hadoop開源免費,不需要支付昂貴的商業軟體成本,雖然需要額外的人力成本來維護和優化,但相對來說比較少,擁有強大的開源社群支援,目前github上已有7.3k的star。
當蘇寧易購2023年開始搭建大資料平台時,hadoop已經成為大資料領域的事實標準,早已在國內外大型網際網路公司投產穩定執行多年,相對來說比較成熟,而且確實可以解決蘇寧易購海量資料儲存和分析需求,hadoop便順理成章成為蘇寧易購大資料體系的基石。
hadoop生態雖然足以應對海量資料儲存和離線分析場景,但對於秒級延遲要求的olap計算和ms級延遲要求的流計算場景卻無能為力,這也成為很多人看衰hadoop生態的原因之一,當然目前也沒有任何乙個平台能完美應對以上所有場景。
元件級競爭激烈,spark優勢明顯,容器興起再掀風波!
所謂無風不起浪,hadoop生態看似穩固,但其元件級別的競爭相當激烈,spark和flink成為強勁對手。蘇寧易購認為,hdfs作為海量資料的儲存系統,具有非常高的可靠性和易擴充套件性,一直以來表現穩定,在大檔案儲存和分析領域,市場上還沒有能夠替代的產品;hbase在kv儲存領域占有絕對優勢,特別是大規模資料集場景幾乎是必選方案,在gb-tb的資料規模下,redis和其他記憶體資料庫被普遍使用;zookeeper作為分布式協調系統,被大規模廣泛使用,依然擁有很強的生命力;yarn與mesos在分布式資源排程領域競爭由來已久,在不同領域各有建樹,yarn畢竟根源於hadoop,已是hadoop生態標配,隨著容器的興起和廣泛使用,swarm和kubernetes也加入資源管理領域的競爭,使這個領域的競爭更加激烈。
spark作為記憶體型計算框架,其先進的理念、優秀的效能表現對mapreduce衝擊很大,mapreduce兩階段的計算特性雖然簡化了程式開發的難度,但引入了過多磁碟、網路io和任務啟停開銷,成為過去已是必然,特別是sparksql,基本讓hive的底層計算引擎mr無立足之地,蘇寧易購也一直在推進sparksql替換hql的工作,但hive作為資料倉儲的功能基本不會被替換。
spark作為hadoop生態系統中的重要元件,在大資料計算領域依然不可或缺,spark sql, spark mllib已被廣泛應用。但是,蘇寧易購認為,spark目前只是作為計算引擎存在,資料儲存還需要依靠hdfs,s3,ceph等系統。未來的資源肯定要統一管理,只有資源集中管理、統一調配才能充分被利用,即使不on yarn模式執行,也會on mesos或者on kubernetes之類的系統去執行。至於資源統一管理帶來的隔離性要求,這是yarn、mesos們要考慮的問題。蘇寧易購計畫在下半年啟動統一資源管理專案,將流計算、離線計算資源統一管理排程,預計能節省30%左右的機器成本。
此外,flink作為近幾年出現的計算框架,與spark比較相似,都期望提供流處理、批處理統一api程式設計模式,但兩者看問題的角度完全不同。spark最先發力批處理,後做成微批處理實現流計算,而flink從一開始就面向流計算,將資料看成unbounded,將批處理當做流的一種特殊情況。基於此,目前flink更多的被用在流計算領域,比如阿里深度定製的blink已成為其內部主流的流處理框架。從設計角度來說,flink也有很多亮點,比如支援event-time,支援exactly-once的處理語義,支援分布式非同步checkpoint等。蘇寧易購目前內部主推flink,期望能替代有點老邁的storm。
目前flink剛剛發布1.5版本,修復了很多bug,新增了很多特性,比如對sql和table的增強,優化了網路棧;社群也比較活躍,共有3700多個star,保持5個月左右一次大版本發布的頻率。在流計算領域,flink絕對是強有力的競爭者。
gartner看衰言論解讀:看事情的角度不同可能造成結果差異!
經過十多年的發展,hadoop已經比較成熟且執行穩定,生態也相對完善,在海量資料儲存和分析領域已經成為事實標準。至於gartner的唱衰論調,蘇寧易購認為,hadoop就好比日常生活中的水電煤,因為太普遍反而引不起特別關注,或者,gartner報告中所說的hadoop是指狹義上的hadoop,也就是原始的hdfs和mapreduce組合。如果單看這兩大元件的發展,mapreduce確實在逐漸退出舞台,被spark/flink所取代。
蘇寧易購認為,hadoop失寵前提一定是出現更強大的可替代大資料解決方案,現在來看,並沒有這樣的方案出現。儲存和計算領域確實持續出現了一些受追捧的新元件,比如olap領域的druid和clickhouse,就是用來彌補hadoop在海量資料多維實時分析場景下的不足。比如flink,採用流處理、批處理統一api程式設計模式解決兩種模式、兩種api帶來的不統
一、程式設計門檻高等問題。
短期內,蘇寧易購沒有顛覆性調整大資料底層平台架構的計畫,仍然以hadoop生態系統為核心,並對hadoop的未來充滿信心,但會在一些hadoop覆蓋不到的場景中引入其他元件並持續投入,比如druid\elasticsearch。
筆者點評:
其次,hadoop生態內元件級別的替換淘汰是很正常的,但這暫時還不會上公升到生態層面。正如蘇寧易購所言,在沒有更加強大的替代品出現之前,hadoop生態的地位依舊穩固。
蘇寧易購爬蟲價格尋找
今天做了乙個關於蘇寧易購的爬蟲,找 規律時花了很多時間,終於做出來了。可以找到唯一乙個檔案 nspcsale 比如我這個是 分析一下url,以每個 為分隔,一次搜尋每串數字 比如上面的 000000000646450414 0070167435 502282 r9011303 0.2你會發現這些數字...
618,新版蘇寧易購APP亮相
內容化經營是這兩年電商平台發展的一大趨勢,無論是短 帶貨還是深度測評,年輕一代消費者的注意程式設計客棧力正在下降,眼光卻越來越挑剔。酒香不怕巷子深 的時代已成為過去時,會吆喝,會帶貨的電商平台才能贏得年輕人的青睞。蘇寧易購當然也不例外,從去年 818 期間推出的帶貨短 頭號買家 到吸引 90 後前來...
蘇寧易購 蘇寧小店將獲4 5億美元增資
techweb 5月20日訊息,蘇寧易購日前對外發布公告稱,為保持蘇寧小店業務的穩定發展,推動蘇寧小店未來戰略的實現,經suning smart life股東協商予以提高資本金投入,suning smart life將再新增發行股份45,000萬股普通股,股東great matrix 蘇寧國際以及g...