文/it大嘴巴
「以前(人家總以為)我們自己寫膠片吹吹牛,現在mspz**tf不用吹,大家都知道我們是真牛了」,華為公司副總裁、華為雲業務總裁鄭葉來在日前成都舉行的「成都·選擇不凡 華為雲城市峰會2019」上表示。
就在這次大會上,華為也發布了雲儲存all-flash戰略,並推出戰略落地的首個產品——全新一代極速io雲硬碟,這標誌著華為推動著雲儲存正式從毫秒走向微秒時代。
微秒這個名詞,相信大多數人都沒有什麼概念。長久以來,受限於網路和儲存的因素,微秒級時延或者響應時間在實際應用中是可望不可及。但是,伴隨著5g等新興技術的發展,越來越多的智慧型化應用都開始湧現出來——比如今年3月,中國人民解放軍總醫院的醫生就在遠隔3000公里外操作手術器械,完成全國首例基於5g的遠端帕金森病「腦起搏器」植入手術。
這項成就得益於5g網路高速率、大頻寬、低時延特性。既然網路已經能夠提供微秒級的應用,那麼對於儲存介質來說也必須迎合這種發展趨勢,才能夠最大限度地發揮系統效能。於是,才有了剛剛我們介紹的華為雲儲存all-flash戰略,它的出現將傳統意義上的「慢車」——儲存和網路大大提速,並與計算一起,構成了資料處理邁向智慧型時代的「三駕馬車」。
「從毫秒進入微秒時代,資料中心客戶主要面臨兩大時延瓶頸:一方面是傳統軟硬體協同,特別是網路傳輸的時延瓶頸;另一方面則是傳統hdd介質的物理能力瓶頸。」華為雲cto張宇昕介紹道。「在我們印象中,網路時延一直是資料處理能力的「硬傷」,這期間哪怕是瞬間的等待也會帶來糟糕的體驗。另一方面,hdd儲存介質的發展的確遇到了越來越多的問題。如今伴隨著16tb容量硬碟的出現,hdd的程式設計客棧響應時間依然是大眾吐槽的重點。」
面對大量客戶的需求與痛點,華為雲也從多個層面著手解決。針對系統層級的時延,華為雲通過軟硬體架構和資料中心架構的優化,實現了極簡網路,也實現了多核免鎖併發,使得軟體的時延和網路的時延降到了極低。所以整個資料處理io從進來到出去,能實現50μs -100μs的穩定時延。而關於儲存介質時延問題,華為雲採用flash替代掉了hdd,將介質時延從原本四毫秒左右縮短到幾十微秒的級別。
當然這並不是簡單的替換就可以的。俗話說好馬配好鞍,有了高速flash介質,還需要對軟體進行優化才能讓介質效能得到最大限度的發揮。同時,盡可能的降低時延,達到與網路時延的一致性,需要徹底解決硬體層面的瓶頸問題。
「傳統硬碟是物理碟片,在提供演算法的時候需要考慮到大圈小圈的問題,所以之前的演算法都是對於物理磁頭的讀寫效能進行優化,隨機讀寫方面的效能就明顯低得多。」張宇昕說,「更換為fla程式設計客棧sh介質之後就完全不存在這種問題,隨機讀寫的效能表現非常不錯。但是對於flash來說,我們需要保證不在某乙個位置持續、頻繁地讀寫,所以在演算法上也要進行調整。」而對於這一點,華為雲的工程師們進行了大量、複雜的演算法優化工作,在提公升效能、降低時延的同時,也保證了flash介質的壽命和應用可靠性。
我們正處於資料**的時代,在邁向智慧型化的道路上,資料成為了我們賴以生存的「食糧」,而掌握了資料應用,就能掌握未來的智慧型時代。據華為全球產業展望(giv)報告預計,2023年的全球年資料增量將提公升至180zb,但是,目前企業資料利用率卻只有10%,資料價值沒有得到充分釋放。而如果想讓資料發揮價值,則需要從多個方面採取措施,為此華為本次也帶來了全新的「資料底座」概念。
華為雲指出,制約雲計算為智慧型時代更好地服務的瓶頸就在「最後一公里」。在雲端,「最後一公里」就是資料通過服務端軟體、網路、儲存伺服器,最終抵達介質的這一過程。
為了實現「最後一公里」的百微秒級突破,華為雲從儲存引擎到架構,從自研晶元到演算法優化,再到最終的ai加持,進行了大量的工作。這其中,ai應用是最引人期待的內容,也是華為雲儲存得以持續發展的源動力之一。按照張宇昕的話說,華為雲儲存可以做到「越用越快」,也成為了重續「摩爾定律」的重要保障。那麼問題來了,我們遇到的許多電子裝置都是越用越慢的,為什麼華為雲能夠反其道而行之?
「越用越慢」這種事兒,大家在日常都有深刻的體會。比方說,剛買來的手機向來是響應快速、執行如飛。但是過了幾個月之後,隨著系統垃圾越來越多,手機執行速度便會下降,就需要不斷地清理和優化,但是這也只是緩兵之計。等過了一年之後,手機就會變得卡頓,點開乙個app都要等幾秒鐘,嚴重影響使用者體驗。其實也不僅僅是手機,所有的電子產品都會有類似的問題。按照「摩爾定律」的說法,每18個月系統效能提公升一倍,老系統自然也就越來越跟不上時代了。
但是基於ai的華為雲儲存正在解決這個問題。「在雲端,伴隨著使用者越來越多,雲的業務負載越來越高,資源的爭搶也就越發明顯。雲服務商可以通過好的資源規劃,通過運維人員及時響應客戶需求,去調整、優化配置,但這一過程畢竟需要一定的程式設計客棧響應時間。如今借助於人工智慧,華為雲儲存可以在很大程度上實現系統自動化感知和調整,而不是通過人工干預。這樣華為雲儲存就可以做到通過快速調整系統來響應客戶的需求。」張宇昕表示。
很明顯,張宇昕所希望的,就是借助於ai演算法實現資源的自動排程,盡可能降低時延和效能損耗,並在條件允許的情況下實現「越用越快」的效果。在實現這一點之後,華為雲儲存也從技術層面保證了系統效能的最大化,讓每一款硬體產品的效能得到盡可能的發揮,最終「逼近介質能力的極限」。
微秒級響應,聽起來似乎有些超前,但正如張宇昕在演講中提到,萬物感知、萬物智慧型、萬物互聯的時代已經到來,為加速各項依託雲計算的創新產業發展、滿足各類新興應用對資料實時性的訴求,華為雲將持續創新,打造出全新一代智慧型資料底座,最終引領雲上儲存進入微秒時代。
本文標題: 微秒級資料處理,華為雲儲存的「快」節奏
本文位址: /news/media/252109.html
百億級資料處理優化
最近在做大資料處理時,遇到兩個大表 join 導致資料處理太慢 甚至算不出來 的問題。我們的數倉基於阿里的 odps,它與 hive 類似,所以這篇文章也適用於使用 hive 優化。處理優化問題,一般是先指定一些常用的優化引數,但是當設定引數仍然不奏效的時候,我們就要結合具體的業務,在 sql 上做...
MySQL庫表級操作級資料處理
首先是進入mysql mysql u username p password 1.顯示所有的庫 show databases 要記得在最後加上 2.建立庫 create database if not exists db name 重複建立會報錯,可以加上if not exists 3.刪除庫 dr...
Impala資料處理(載入和儲存)
不多說,直接上乾貨!hive與impala都是構建在hadoop之上的資料查詢工具,那麼在實際的應用中,它們是如何載入和儲存資料的呢?hive和impala儲存和載入表,和所有的關係型資料庫一樣,有自己的資料管理結構,從它的server到database再到表和檢視。在其他的資料庫中,表都是以自己特...