dna儲存——延續千年的承載介質。
微軟與華盛頓大學的研究員們已經演示相關方案,旨在利用合成dna作為資料歸檔儲存介質。
如果這項技術足夠強大,則完全可以將沃爾瑪這樣的巨型企業的全部資料儲存裝置縮小為一塊方糖尺寸,研究員們指出。
「我們認為時機已經成熟,基於dna的儲存方案已經具備可行性,且能夠立足於此設計並架構相關系統,」研究員們在其**中寫道。
該研究團隊已經成功將來自四幅的數位化資料儲存在合成dn**段當中。更重要的是,他們亦能夠逆轉該過程——即從較大dna池中檢索正確序列,並利用提取到的完整位元組重構影象。
華盛頓大學電腦科學與工程研究科學家們混合dna樣本以實現儲存功能。每條dna中儲存乙個數位化檔案。
「生命造就了dna這一夢幻般的分子,其能夠有效儲存各類基因資訊以及生命系統的運作方式——其非常緊湊且極為耐用,」威斯康星大學電腦科學與工程副教授、研究**聯合作者luis ceze表示。
dna資料儲存研究進展神速。2023年,dna儲存方案還僅僅只能編碼並恢復長度為23個位元組的資訊。
到2023年,來自英國embl歐洲生物資訊學研究院的科學家們已經能夠將馬丁·路德·金的「我有乙個夢想」演講***檔案儲存在dna當中。
而且根據英國研究員們的解釋,儲存在dna鏈中的資料可以持續數萬年之久。
讀取dna的方式非常簡單,但向其中寫入卻難度很大。這方面共存在兩項挑戰:其一,利用現代方案僅能製造短dna序列;其二,dna在寫入與讀取時容易出錯,特別是在重複相同的dna字母時。
以上三幅為此次dna資料儲存實驗中的物件。
微軟與華盛頓大學的研究員們指出,他們開發出了「一種新型方案」,能夠將長字串轉換為dna序列的四種基本組成部分——腺嘌呤、鳥嘌呤、胞嘧啶與胸腺嘧啶,分別簡寫為a、g、c與t。
要訪問這些資料,研究員們在dna序列內編制出類似於郵編及街道位址的符號。聚合酶鏈反應(簡稱pcr)技術——常用於分子生物學當中——幫助他們能夠更為輕鬆地識別自己正在搜尋的郵編。
「將1和0轉換為a、g、c和t非常重要,因為只有採用非常精妙的實現方式,我們才能提高儲存密度並降低錯誤率,」**聯合作者georg seelig解釋稱。
微軟與華盛頓大學的研究員們宣稱,他們已經在程式語言與作業系統架構支援acm國際大會上公布了研究成果。
「dna擁有可觀的發展潛力,」研究員們表示,因為其儲存密度極高,理論極限比磁帶高出八個量級。磁帶技術能夠在巴掌大的卡帶中儲存最高185 tb資料。
微軟與華盛頓大學的研究員們還證實了合成dna的長效性,稱其能夠在惡劣環境中帶來超過500年的半衰期。相比之下,磁帶壽命為10到30年,而磁碟驅動器則僅為3到5年——研究員們指出。
「這相當於2023年全部資料總量的十倍。雖然並非全部資訊都需要進行長期儲存,但可以肯定的是資料儲存裝置的增長速度完全跟不上資料的產生速度。」
不過在投入商業使用之前,dna儲存系統還需要克服一系列難題。首先,dna合成與測序的效果還遠稱不上完美,每核苷酸中仍存在1%的排序錯誤率。因此,dna儲存需要設計出合適的編碼方案,從而帶來額外的容錯能力。
再有,dna儲存不擅長實現隨機資料訪問,這意味著整體而言讀取延遲遠高於寫入延遲。目前的進展只能夠實現大型資料塊訪問;即使僅讀取單個位元組,也必須對整套dna庫進行測序與解碼。
科學家們已經提出了對應的解決方案,即利用聚合酶鏈式反應(簡稱pcr)對需要的資料進行定向放大,從而通過針對性測序改善隨機接入能力。如此一來,我們將不再需要對整套dna庫進行測序。
「這是我們借用大自然產物的絕對例項,」ceze解釋稱。「但我們也在使用現有計算機技術對其加以完善,例如如何糾正記憶體錯誤,並讓最終成果回歸自然。」
資料科學家Docker入門指南
摘要 docker容器那麼強大?可以應用道資料科學領域?看來學習一下!docker容器是通過虛擬化開發和部署應用程式的一種越來越流行的方式,它對資料科學家有用嗎?當然,本指南就會向你介紹它的作用,並手把手教你快速入門。docker是一種越來越流行的,使在容器中開發 部署和執行應用程式變得更容易的工具...
資料科學家成搶手人才
對於乙個理應奇缺人才的領域,資料科學似乎在快速造就大批新專家。不久前,1600人出席了華盛頓大學 university of washington 機器學習教授卡洛斯 格斯特林 carlos guestrin 執掌的公司turi在舊金山主辦的一次資料科學峰會,表明資料科學引起的興趣是多麼的濃厚。格斯...
資料科學家面試如何準備?
編輯 april emma 專欄 九章演算法 資料科學家 data scientist 被 財富 雜誌譽為21世紀最 的職業。據調查顯示,僅僅在美國市場,2018年大資料和高階分析相關人才的缺口就將高達19萬。然而雖然現在很多人對這份職業躍躍欲試,但是卻對這份新興職業並不了解,更不知道應該如何準備面...