華大基因BGI Online的雲計算實踐

2021-09-23 17:56:01 字數 1551 閱讀 2567

本文正在參加「最佳上雲實踐」評選,來給我們投票吧:編號13)

基因測序為生命科學領域帶來機遇,隨著測序技術的發展和測序成本的降低,基因測序在生物資訊與醫療健康等領域得到廣泛應用。但同時,基因測序行業也面臨著處理及分析海量資料的全新挑戰。傳統的硬碟已無法滿足大資料的儲存,而大資料處理和分析解讀工作存在複雜性和不可**性,因此需要極強的計算能力。

我們的產品生物資訊分析雲平台bgi online正是為了解決這個難題而誕生。bgi online是由華大基因開發的一款基於「雲」的生物資訊資料雲平台。2023年,bgi online專案啟動;2023年,我們在評估了資料儲存與計算的需求後,決定與阿里雲合作,選擇其作為我們產品的主要計算資源**商。通過在雲計算、大資料領域的長期技術積累,阿里雲具備支撐這個世界最大基因中心核心業務系統的能力,滿足我們在資料處理、隱私安全保護以及傳輸方面極為嚴苛的要求。

1. 架構解析/優化

任何系統架構的搭建和新技術的應用都是由業務需求催生的。生物資訊分析面對的基因資料動則數十g乃至上百g,大檔案的傳輸、儲存、計算對平台的io吞吐、擴充套件性、伸縮性都有很高的要求。生物資訊分析是對大檔案的精細分析,同時屬於資料密集型、計算密集型、io密集型應用。大量基因資料的持久化和流動,要求檔案管理系統的大容量、高伸縮、高通量;大量的計算需求要求計算資源的高效能、高時效、經濟性。

為了滿足使用者基因資料的存、管、算、傳,bgi online系統設計了多個架構元件,分別為前端、後端、任務管理引擎、儲存管理、檔案傳輸五大部分。前端通過web服務呈現系統業務和提供使用者操作,web請求通過slb做負載均衡,並在阿里雲提供的vpc和雲盾的防護下提供高可用的服務。後端管理系統的業務資料和處理業務邏輯,後端服務部署在多台ecs上,並採用rds服務儲存業務資料。任務管理引擎接受前端請求,管理計算資源實現生物資訊資料的分析,阿里雲提供了海量的ecs節點,並對每個ecs節點提供了完整、詳細的api文件,通過對接ecs節點實現了計算資源的彈性伸縮和強大的分布式計算能力。儲存管理負責基因資料的儲存和管理,運用oss和oas實現了基因資料的冷熱儲存,除了oss和oas本身提供的加密儲存外,還對接oss服務實現資料的去身份化,大大提高了平台的安全性。檔案傳輸通過部署在ecs上的服務提供,龐大的基因資料上雲是資料流的起始端和瓶頸,阿里雲通過鋪設阿里機房到華大集群的專線,顯著提公升了資料傳輸的速度。bgi online的架構見下圖:

2. 上雲前後分析對比

2023年8月30日,bgi online國內版正式在公司內部上線內測,此後陸續完成了十幾個大型專案的流程部署與測試,如24小時內完成儲存峰值超10t、計算任務超1000個的87個遺傳病家系基因組分析,和成功部署由開發者自主研發的單細胞基因組分析等專案,並取得突破性成果,阿里雲的雲服務在這些專案中起到了關鍵性的作用。

總結

bgi online平台利用阿里雲的雲技術服務實現了在醫學研究、疾病篩查及臨床醫療等不同應用場景、模式下的低成本及高效自動化的基因資料傳輸與儲存,同時也解決了資料安全及計算資源的問題。我們團隊相信,有了阿里雲的核心力量支援,bgi online平台必將不斷創造生物雲計算行業的「新紀錄」!

阿里雲攜手華大基因打造精準醫療應用雲平台

華大基因股份公司總監金鑫介紹了華大基因,並 了與阿里雲的情緣,包括maxcompute等方面應用案例。一起來看下吧。華大基因是中國最領先的基因科技公司,華大基因為消除人類病痛 經濟危機 國家災難 瀕危動物保護 縮小貧富差距等方面提供分子遺傳層面的技術支援。目前,世界上只有兩個國家的三個公司可以生產 ...

金鑫 基因應用現狀解析及華大基因的資料平台架構

前不久 金剛狼3 殊死一戰 上映,在狼叔休 傑克曼的光環下,僅兩周時間,全球票房已高達4.38億美元,其中精彩的動作戲與狼叔的謝幕無疑是觀眾追求的熱點。然而不管是 金剛狼 抑或是 x戰警 基因突變帶來的超能力都是貫穿整個故事的基本元素。基因科技是什麼?時至今日相信大家都已經有了一定的了解,就比如孕媽...

華大基因「黑科技」頻出 引廣泛關注

生命大資料高峰論壇暨第四屆基因組雲計算技術開發者峰會的舉行,亮相了許多新型科技www.cppcns.com,其中華大基因的多款黑科技尤其吸睛。華大科技研發總監唐衝博士,在會上帶來的主題報告中,華大自主開發的多組學資料探勘系統dr.tom吸引了極大關注。該系統是集大資料分析及人工智慧技術於一體的一站式...