金鑫 基因應用現狀解析及華大基因的資料平台架構

2021-09-23 17:51:55 字數 2144 閱讀 4596

前不久《金剛狼3:殊死一戰》上映,在狼叔休·傑克曼的光環下,僅兩周時間,全球票房已高達4.38億美元,其中精彩的動作戲與狼叔的謝幕無疑是觀眾追求的熱點。然而不管是《金剛狼》抑或是《x戰警》,基因突變帶來的超能力都是貫穿整個故事的基本元素。

基因科技是什麼?時至今日相信大家都已經有了一定的了解,就比如孕媽媽熟知的無創基因檢測,又比如說大量場景中用到的dna親權鑑定。然而,在這之外,日常生活中基因應用還有哪些方面?是否如電影《生化危機》、《我是傳奇》那樣遙遠又恐懼?借用時下熱門的雲計算、大資料等技術基因研究這種全人類事業又會產生什麼樣的助力?近日,雲棲社群採訪了深圳華大基因股份****研發中心副總監金鑫,就上述幾個問題進行了討論。

科研、醫學、人人,基因的研究、應用與探索

10年後的今天,每個新生兒出生後記錄的可能不僅是身高體重,還包括了他的基因資料——金鑫。

覺得不太可能?在驚訝的目光中,金鑫表示:回到10年前,2023年這個世界有基因資料的人不超過10個,那個時候讀取乙個基因資料需要上億美金;10年後的今天,成本被降到了1千美金之內,同時基於人們對更高健康水平的需求,統計已按百萬計。而著眼當下,基因研究主要可分為以下3個維度:

1. 科研的服務。類似大多新技術,基因研究最初也是在科學研究的基礎上發展起來,比如尋找一些疾病的致病基因,又比如熊貓為什麼不吃肉,通過研究熊貓的基因組會發現,其基因組例感受肉鮮味的基因「壞」掉了。

2. 醫學的服務。在之前,醫學實踐之所以比較少用,原因在於技術上沒有突破,同時缺少人類基因組參考序列。時下對於基因的研究已經有了更好的基礎,同時成本也飛速下降,所以有了臨床應用的可能,就比如生育健康、腫瘤相關、病源感染相關方面,也就是生死染:

3.人人服務。在醫學服務中的生育健康其實關乎到整個人口質量、社會負擔及家庭負擔。時下整個出生缺陷的發病率在5.6%,而華大基因的目標是使用基因技術,使出生缺陷發生率在此基礎上降低50%以上。

在基因研究方面,華大基因、intel、阿里雲共同發起了乙個2020計畫,希望在2023年實現1個人的基因樣本採集、處理、測序及初步分析在一天內完成。而在這中間,雲一方面提供了海量的資源,加速計算和解讀的過程,另一方面,讓很多人可以同時對多個資料進行比較,從而更精準地解讀。

海量資料、異地,基因研究與應用挑戰

2023年3月10日之前,7年華大基因完成了100萬例孕婦產檢,然而在2023年底已超過170萬,同時隨著成本降低、人們思想進步、基因技術突破及二胎等政策推出,相信這個資料體量會愈來越大——金鑫。

乙個人的基因組資料大約在3個g,為了得到精準的基因資料,通常需要進行幾十上百不等次的冗餘測訊,而做腫瘤基因檢需要進行上萬次。因此,聯絡具體業務,其存在的主要挑戰有:

基於上述挑戰,華大基因通過阿里雲為bgi online(安全、⾼效、易⽤的⽣物資訊服務雲平台,為⽣物資訊領域的各類科研工作者和工具開發者提供便利)注入彈性,同時也釋放了每個資料中心部署耗費的大量人力、財力和物力,其總體架構如下:

而就在去年,基於華大基因開發的新一代基因雲計算平台bgi online,華大基因、阿里雲和安徽醫科大學三方共同協作在21小時47分12秒內完成了1000例人類全外顯子組資料的分析,創造了基因資料分析的「深圳速度」。

人人服務,基因研究未來的發展

基因行業還在非常早期,現在看到的就是一些非常確定的應用,和非常確定的結果——金鑫。

如果只有乙份基因資料,能解釋的事情非常少,同時在人的基因之外,動植物、甚至是微生物這些組**類生活環境的因素同樣需要分析。因此,去年建立了我國第乙個也是唯一乙個國家基因庫(由華大基因承接和運營)。而在這之外,華大基因更與多家國際組織達成合作,比如irdirc國際罕見病研究聯盟,也比如與費城兒童醫院在兒童腦癌上的研究。

同時金鑫還表示,時下雲計算、大資料、人工智慧等技術同樣會給基因研究帶來很大的助力,比如在計算、儲存之外,華大基因已與阿里雲展開了大量機器學習相關方面的合作,比如說**小公尺性狀,通過小公尺的基因資料,種植環境來預判小公尺的產量、特性等。同時也正在與阿里雲合作,通過更好的演算法去**腫瘤的驅動基因。

在最後,金鑫再次強調了基因研究上「我為人人」這個概念,他表示,就如bgi online生物資訊資料雲平台,基於雲基礎設施能夠搭建不同的基因資料分析場景,不同的人可以在上面搭建自己的分析流程,為⽣物資訊領域的各類科研工作者和工具開發者提供便利。

qsort函式解析 應用及底層原理

qsort函式可以對任意型別資料排序,標頭檔案為,其函式原型為 void qsort void base,size t num,size t width,int cdecl compare const void elem1,const void elem2 第乙個元素為所要排序資料的起始資料的位址,...

2023年SaaS應用現狀及發展調查報告

本文講的是2013年saas應用現狀及發展調查報告,2013中國it應用技術藍皮書調查報告再次啟動,雲計算的saas領域再次作為藍皮書重點調查的領域。saas 即 software as a service 的縮寫 的意思是軟體即服務,saas的中文名稱為軟營或軟體運營。saas是基於網際網路提供軟...

簡述C XML解析方法的特點及應用

c xml解析方法都有哪些呢?在程式中訪問並操作xml檔案一般有兩種模型 流模型和dom 文件物件模型 流模型中有兩種變體 推 模型和 拉 模型。c xml解析方法之 推 模型 推 模型也就是常說的sax,sax是一種靠事件驅動的模型。它每發現乙個節點就用 推 模型引發乙個事件,而我們必須編寫這些事...