導讀 |
數(shù)據(jù)存儲領(lǐng)域的變化催生了一些新的技術(shù),譬如DNA存儲技術(shù)。利用DNA存儲數(shù)據(jù)的思想自“人類基因組計劃”啟動時萌芽,到2012年科學家首次存儲了700k的數(shù)據(jù),而后科學家提高到了22M,近日由微軟和華盛頓大學的研究人員創(chuàng)造了新的記錄,他們在比鉛筆芯尖還小的DNA存儲系統(tǒng)里完成了約200MB數(shù)據(jù)的存儲工作。
|
管底粉紅色物質(zhì)即DNA,少量DNA即可存儲大量數(shù)據(jù)
存儲是信息跨越時間的傳播。數(shù)據(jù)存儲領(lǐng)域正在發(fā)生著劇烈的變化,并且這種變化將是長期的一種趨勢。隨著數(shù)據(jù)存儲領(lǐng)域的變化,將催生中一些新的技術(shù)改變存儲領(lǐng)域的發(fā)展。
從20世紀開始,信息技術(shù)發(fā)生了歷史性的進步,“萬物皆可數(shù)”對人類歷史具有深刻的意義。
最近,由微軟和華盛頓大學的研究人員創(chuàng)造了新的記錄,他們完成了約200MB數(shù)據(jù)的保存工作,其中包括《戰(zhàn)爭與和平》(Warand Peace)以及另外99部經(jīng)典文學作品。
存儲技術(shù)的昨天
幾千年前的巖畫、古書,以及近代的照相技術(shù)、留聲機技術(shù)、電影技術(shù)以及現(xiàn)代的硬盤光盤、磁盤陣列等技術(shù)的發(fā)明,極大豐富了我們的信息獲取渠道。隨著存儲需求量的急劇增加,到2020年,數(shù)據(jù)有望達到44萬億gigabyte(GB),這已經(jīng)超出了我們現(xiàn)有的存儲能力,且硬盤和光存儲等DVD和藍光光盤,易受損傷和退化。好消息是,研究人員開發(fā)的DNA存儲技術(shù)可以填補這些缺點。
DNA存儲技術(shù)的出現(xiàn)
你身體里每個細胞的DNA(脫氧核糖核酸)都含有數(shù)不勝數(shù)的信息量。在科學家完全繪制出基因組圖譜之前,在破解核苷酸的密碼過程中,少數(shù)研究者就設(shè)想利用DNA進行數(shù)據(jù)存儲:利用人工合成的DNA(脫氧核糖核酸)作為存儲介質(zhì),存儲文本文檔、圖片和聲音文件等數(shù)據(jù),隨后完整讀取的技術(shù),具有高效、存儲量大、存儲時間長、易獲取且免維護的優(yōu)點。
DNA存儲技術(shù)的發(fā)展
DNA是一種令人難以置信的密集存儲介質(zhì),每立方毫米(per cubic millimeter.)可以壓縮5.5 petabit(PB,相當于10的15次方個二進制數(shù)字,125000 GB)的信息。
早在2012年,哈佛大學分子生物學家George Church向DNA中寫入了一本5.34 萬個單詞、數(shù)據(jù)量不到1MB的書,隨后將其印刷在比花粉粒還小的玻璃芯片上。
2013年,歐洲生物信息學研究所向DNA中寫入了大小為739KB的聲音、圖像和文本以及一個26s的音頻片段存儲了馬汀路德金(Martin Luther King)的《我有一個夢想》(I Have a Dream)的演講稿。
今年早些時候,哈佛醫(yī)學院和一個技術(shù)團隊(George Church也參與)報告稱,已實現(xiàn)了22MB數(shù)據(jù)的DNA編碼,包括法國無聲電影“月球旅行記”(A Trip to the Moon)。
2016年7月8日,微軟宣布,利用DNA存儲技術(shù)完成約200MB數(shù)據(jù)的保存,其中包括《戰(zhàn)爭與和平》(Warand Peace)以及另外99部經(jīng)典文學作品。
Luis Ceze語錄
與此同時,華盛頓大學教授Luis Ceze在鞋盒大小的空間存儲了700 exabyte(EB,相當于1024PB)的數(shù)據(jù)。Luis Ceze教授還表示,一個鞋盒所放的數(shù)據(jù)相當于100個大型數(shù)據(jù)中心的存儲量,可以保留幾千年。此外,他們已經(jīng)發(fā)現(xiàn),猛犸象化石在猛犸象死后幾千年仍然含有動物的遺傳密碼子,這說明DNA信息非常耐寒,能夠在殘酷的環(huán)境中存儲數(shù)千年。
DNA是如何存儲信息的?
DNA存儲技術(shù)是一種基于生物分子的數(shù)據(jù)存儲技術(shù),是以人工合成的DNA(脫氧核糖核酸)分子為存儲介質(zhì),以A、C 、G、T這4種堿基對信息進行編碼,將信息存儲于DNA分子中,同時利用現(xiàn)有技術(shù)實現(xiàn)DNA分子的復制和DNA分子堿基的修改等操作,從而實現(xiàn)文本文檔、圖片和聲音視頻文件等數(shù)據(jù)的存儲和讀取。
DNA存儲技術(shù)的示意圖
如上圖所示:
1)首先,研究人員把數(shù)據(jù)中諸多由“0”和“1”組成的長串轉(zhuǎn)換為DNA序列的四個基本組成部分:腺嘌呤(A)、鳥嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)。
2)轉(zhuǎn)換完成后,研究人員把數(shù)據(jù)分成段,并且儲存到海量的人工合成的微小DNA分子中,這些分子經(jīng)脫水可以保存很長時間。
3)為了便于檢索存儲的數(shù)據(jù),研究團隊把類似于郵政編碼和街道地址的信息編入DNA序列,這樣就很容易找到所需數(shù)據(jù)了。
4)通過DNA測序技術(shù),研究人員可以“讀取”數(shù)據(jù)并把它轉(zhuǎn)換成原始形式,目前科學家已經(jīng)成功地對圖片數(shù)據(jù)和視頻數(shù)據(jù)進行編碼和檢索。
值得一提的是,盡管DNA存儲技術(shù)是可靠的,但如同硬盤驅(qū)動器和電子存儲器會發(fā)生錯誤,DNA的寫入和讀取也可能存在錯誤,因此科學家在這一過程中還需要制定糾錯碼,以可靠地檢索數(shù)據(jù)。
DNA存儲技術(shù)的優(yōu)勢
相比傳統(tǒng)存儲介質(zhì),DNA是一種優(yōu)良存儲介質(zhì),能帶來更高的存儲密度和耐久性。DNA存儲技術(shù)是一項著眼于未來的具有劃時代意義存儲技術(shù),作為生物分子計算機領(lǐng)域的一個重要分支,它具有存儲密度高、硬件成本低廉、存取高度并行性、擴充性強、儲存長久性等優(yōu)點,極有可能替代傳統(tǒng)的存儲系統(tǒng)。
微軟首席研究員Karin Strauss表示,由于在數(shù)字存儲世界里,通常是以GB或者TB來記錄。雖然200MB聽起來不是很多,但此前并沒有任何研究者能一次性向DNA寫入如此多數(shù)據(jù)。例如,2012年哈佛遺傳學家George Church將他的電子書存儲到DNA中,只用了700 KB的HTML文本。
微軟的愿景:盡快降低成本
盡管目前還不能使用基于DNA的硬盤存儲假期照片,但這個項目將人類帶入了存儲、處理海量數(shù)據(jù)的高效時代。科學家們還嘗試儲存了其他類型的文件,如100多種語言的《世界人權(quán)宣言》,《古騰堡計劃》的前100種書籍,作物信托(Crop Trust)的種子庫以及“OK Go's This Too Shall Pass”的高清音樂視頻。
Karin Strauss還表示,目前DNA數(shù)據(jù)存儲一技術(shù)實現(xiàn)成本昂貴且操作復雜。微軟希望借助生物科技行業(yè)的研究成果來降低這一技術(shù)的最終成本。
知名市場調(diào)研機構(gòu)IDC預計:科技不斷發(fā)展令數(shù)據(jù)大量涌現(xiàn),到明年全球范圍內(nèi)保存的數(shù)字化數(shù)據(jù)將達到16萬億GB。傳統(tǒng)儲存介質(zhì)無法滿足龐大的數(shù)據(jù)存儲需求,DNA作為存儲介質(zhì)有望解決這一難題,生物芯片存儲企業(yè)迎來發(fā)展機遇。
推薦閱讀: