能存下整个互联网的DNA“硬盘” 百万年后仍可读取

[复制链接]
查看213 | 回复0 | 2019-12-29 23:03 | 显示全部楼层 |阅读模式









DNA或许能让数据保存数百万年之久




扪心自问一下,我们存储在硬盘或移动闪存内的信息可以保存多久呢?5年?10年?还是更久?




据美国有线电视新闻网(CNN)近日报道,目前,一家名为Backblaze的在线备份服务商正在同时运行2.5万个硬盘,它们希望借此将这个问题查个水落石出。尽管该调查目前仅仅进行了5年,但研究结果表明,4年的损耗率就高达22%。Backblaze公司表示,有些服务器的寿命可能有10多年,而有些则不足1年。但不管怎样,存储设备无法永远存在。




因此,科学家们开始四处寻觅,希望找到能使数据存续数百万年之久的存储方法。




DNA或成终极数据存储器




瑞士苏黎世理工学院的研究人员相信,答案可能就在每个活体细胞都有的数据存储系统:脱氧核糖核酸(DNA)内。DNA是一种双链结构的分子,主要功能是长期性的资讯储存,被喻为蓝图或食谱。DNA不仅紧凑而且复杂,因此,从理论上来说,1克DNA就能将互联网巨头谷歌和脸谱上所有海量数据囊括其中,且还有富裕空间。




研究人员表示,这1克DNA能容纳455EB(艾字节)的数据,相当于4550GB字节的数据,而5EB就相当于至今全世界人类所讲过的话语。




化石作用让DNA长期保存




众所周知,化石作用让古生物化石中的DNA在特殊条件下可以被保存下来,人们可以从中获得动物的整个基因组。迄今为止,科学家们已经对11万年前的北极熊和70万年前的马的基因组进行了提取和测序。




苏黎世理工学院化学和应用生物科学系讲师罗伯特格拉斯表示,DNA也存在着巨大的问题,那就是它会很快降解。格拉斯在接受CNN采访时表示:我们已经发现了使DNA非常稳定的简单方法,希望能找到办法,将DNA的高存储密度和稳定性这两个属性结合起来,应用于数据存储方面。




格拉斯说:就目前的情况来看,化石中的DNA最多能保存70万年,不过,也有人推断能在化石骨头内发现存在时间长达百万年之久的遗传物质。我们已经证明,我们制造出的DNA和信息存储的衰变速度同化石DNA的相同,因此,我们或能得到大约100万年的存储时间。




考古学领域的最新发现也进一步刷新了人们对DNA保存能力的认知。据媒体报道,2013年年底,古生物学家从一根来自西班牙的40万年前的股骨中提取出了DNA,这些化石是上世纪90年代从西班牙北部一处叫做骨坑(Sima de los Huesos)的地方发掘出来的,这段DNA是公开发表的最古老的人类DNA,将此前纪录提前了足足30万年。其中的神奇之处在于,这个DNA能在墓穴这个相对来说比较寒冷但非冰冻的环境下存活下来。




格拉斯说:还有很多谜题有待解开,我们希望进一步弄清楚DNA的衰变机制。




人工模拟化石作用




现在,我们都知道,水和氧气是DNA生存的敌人。在一个试管中且暴露在空气中的DNA只能存活2年到3年;而将DNA密封在一个玻璃(一个无菌且中性的环境)内并对其进行冷却,可以增加其生存几率。




研究人员解释道,人工办法其实也模拟了自然界中发生的现象,如果化石能让DNA处于寒冷、干燥且密封的状态,那么,微型玻璃圆球也能让双链中包含的信息数千年毫发无伤。格拉斯说:溶胶凝胶技术可以利用小分子制造固体物质,因此,我们能借用这一过程制造出包围DNA分子的玻璃。#p#分页标题#e#




该研究可与科幻大片《侏罗纪公园》相媲美。在《侏罗纪公园》中,研究人员利用琥珀中吸食恐龙血液的蚊子,最终克隆出恐龙,并建造了一个侏罗纪时代公园。不过,格拉斯说,通过琥珀内的史前昆虫来获得史前DNA,这一想法并不靠谱。他说:最好的DNA来源是陶瓷和干燥的物体,因此,牙齿、骨头甚至蛋壳更有可能。




成本有望不断降低




迄今为止,该研究团队通过仅仅保存83KB的数据来对最新方法进行测试。格拉斯介绍说:我们保存了两个大文件,一个是《1921年瑞士联邦宪章》;另一个是阿基米德重写本。我们希望通过存储这些文件来证明,我们的方法不仅有用,而且很重要。




他推断,在1万年内,信息是可读的;而如果在冰冻状态下,可以存储100万年之久。据悉,为这86KB的信息编码的成本大约为2000美元,目前来看有点昂贵,但格拉斯乐观地认为,医学分析领域取得的进步很有可能让成本大幅降低。




格拉斯说:人类基因组测序的价格已经从几年前的数百万美元下降到现在的数百美元。现在,似乎到了我们将医学分析和基因组分析领域取得的进步整合进信息技术领域的时刻了,一旦如此,整个信息技术将呈现出崭新的面貌。




能存下整个互联网的DNA硬盘








能存下整个互联网的DNA硬盘




基因测序技术的飞速发展忙坏了数据存储公司,在他们发愁如何存储爆炸式增长的基因数据时,生物学家却另辟蹊径,他们发现,基因本身,就是最好的存储设备。




今年2月,瑞士联邦理工学院的项目团队对外公布了一项最新研究成果:他们成功将一段DNA片段塞进了石英玻璃材质的球形胶囊中。




看起来不是什么重大成果,此前人们早已能够把DNA片段塞进各式各样的材料中。但关键是,4周后,瑞士科学家从那段DNA中,完整取出了之前存入的83KB数据。




这就算是DNA存储技术的历史性突破了。它意味着,利用DNA存储和读取数据,不再是一个不错的想法,而是一个可行的办法。




不过,虽然实验已证明了其可行性,但要真正干掉如今的硬盘和服务器,DNA存储还有很长的路要走。




【1克=700TB】




在分析所有困难前,先来看一个基本的问题,为什么要用DNA来存储数据?




答案不是为了好玩,也不是某些技术先锋的创新之举,而是我们现有的存储工具,已经跟不上数据存储的需求。




市场研究公司IDC和数据存储公司EMC在2014年做了一项调研,他们发现,2013年全世界的数据总量达到了4.4ZB(1ZB=10.74亿TB),按照如今的数据增长速度,即使保守估计,2020年,数据总量也将超过44ZB。




而随着摩尔定律的升级,人类已经逐步接近传统电子制造技术的极限,即便摩尔定律一直生效,现有电子存储设备的性能和容量提升速度,也无法跟上人类产出数据的速度。




在数据大爆炸灾难发生前,人类需要找到不受摩尔定律限制的存储设备。DNA存储的设想,由此而生。




关于DNA存储,流传最广的说法是2010年诞生于酒吧中。当时,欧洲生物信息研究所副所长尤安?伯尼和同事尼克?古德曼在德国汉堡市一间酒吧中发愁,用什么可以替代昂贵的存储硬盘,以处理日益繁多的基因数据。#p#分页标题#e#




两人开玩笑说,要是有存储设备能像DNA一样存储遗传基因信息多好,你看一只猛犸象的基因就能让我们了解数万年前的许多信息。




话音刚落,两人立马有了同样的想法,为什么不用DNA存储信息呢?它本身就是一个很好的存储设备。于是,两位科学家找了一张餐巾纸,在上面写下了这个伟大的构想。




在两人的构想中,所谓DNA存储,就是利用DNA的4个碱基A、T、C、G为基本符号,通过独特的排列组合,形成一套编码存储和读取数据。




这与如今的二进制电子存储有异曲同工之妙,只不过,二进制电子存储是以1和0为基本符号进行排列组合,形成不同的序列,进而组合成信息和数据。




而DNA有4个碱基,在编码上也就多了许多可能,众多的优势也将从中显现。




最明显的优势,就是容量。DNA本身就是携带海量遗传信息的数据库,在人类的基因序列中,1克重量的DNA就包含数十亿GB的遗传数据,而根据2012年美国科学家乔治?丘奇在1沙克(亿万分之一克)DNA中存入的数据量换算,1克DNA能存储的数据,多达700TB,相当于1.4万张蓝光光盘,或233个3TB的硬盘。




丘奇说,以这个存储容量,今后,一个拇指大小的DNA存储设备,就能存下整个互联网的信息。




【最佳存储选择?】




除了容量巨大,DNA存储的优势还包括无须依赖电源和不需要维护等,不过以此就断言DNA是未来最佳存储设备,还为时尚早。




2013年,经过3年努力,尤安?伯尼和尼克?古德曼完成了他们首次的DNA存储实验,将154首莎士比亚的诗歌、一张欧洲生物信息研究所的JPG格式图片、一份关于DNA分子结构的PDF学术论文、马丁?路德?金我有一个梦想的26秒演讲片段以及一个编码系统文档统统存进了微量的DNA里。




但完成这一存储过程,着实费了不少功夫。




最基本的难题是如何将这些数字化形式存在的文字、图片和视频,转化成DNA碱基的编码语言。科学家们时至今日使用的方法,都是发明一段中间代码,让这段代码充当中介,实现二进制电子语言与DNA碱基语言的转化。




比如,将莎士比亚的诗歌翻译成中间代码,再利用DNA合成技术,将碱基按序排列,合成一段符合诗歌代码的DNA片段,并加上一段索引代码,保证每一个位置的碱基与相应的诗歌字母相匹配。




读取阶段,则是利用基因测序仪和计算机,按照DNA片段的序列索引,将DNA中存储的信息排列好,并通过中间代码转化成计算机能够读取的二进制数字语言。




理论上看这是一个接近完美的存储和读取方法,但实际上,除去中间代码的编写难度之高,DNA本身的存储和数据保护,也是一个大麻烦。




以往众多科学家的测试结果表明,合成存入数据的DNA并不困难,但要读取数据时,DNA会对周围环境作出反应,很难保持稳定,这很容易导致读取的DNA数据经常出现错误,或者数据随着细胞死亡而丢失。




瑞士联邦理工学院科学家们的实验之所以可以称为突破性成功,就在于解决了DNA片段的存储问题,将DNA片段当成化石保存,再通过氟化物的作用,释放DNA,进而完整准确地读取出所有存入的数据。




瑞士的科学家说,利用这种方法,存储数据的DNA可以在-18℃下保存100万年之久。#p#分页标题#e#




不过,即便保存方法难题得到解决,DNA存储还需要面对所有前沿科技面临的共同挑战成本。




瑞士科学家在DNA片段中存储的83KB数据,包括一份瑞典联邦宪章以及英文版的阿基米德著作《机械定理方法》,整个存储和读取过程,花费超过1000欧元,而若要存储一整部电视剧,费用将是一个惊人的数字。




不过好消息是,基因测序和DNA合成技术的发展速度也同样惊人,DNA存储的成本也在随之降低,届时,即便不能成为最佳存储设备,也会是最好的选择之一。







科学家发明DNA录音机,存储细胞记忆




如果细胞会说话,它们应该有很多故事可以告诉我们。它们遇到过哪些分子,它们向邻居传递过哪些信号,它们是如何成长和改变的。研究人员虽然还没能让细胞真正开口说话,但是他们已经发明了一种DNA录音机,通过DNA序列存储数据。DNA录音机可以记录细胞几个星期的生活史,描述出细胞各种各样的记忆。相关研究发表在11月13日的《科学》杂志上。科学家们预想,这一稳定的、可擦除且易于检索的记忆,将会特别适合于诸如环境和医学监测传感器等应用。




在过去,研究人员通过打开或关闭响应刺激的蛋白的产生,将细胞转化成简单的传感器。 但是每个开关只能记录一项简单的信息,即细胞是否在相应的刺激中暴露过,但不能揭示暴露的时间和程度。




领导该研究的麻省理工学院的合成生物学家Timothy Lu说:我们希望细菌可以有一个收集更多信息的记忆系统,那么问题来了,这样的记忆系统是什么样的呢?




Lu的团队设定了一个生物程序对活细胞的DNA进行重写。一旦DNA被重写了,即便到细胞死亡的时候,信息依然会存在于遗传物质中。通过测定含有这种重写DNA的细胞中基因的数量,研究人员可以确定信号持续的时间和强度。含有突变基因的细胞越多,表明信号越强、越久。




这种方法被称为Synthetic Cellular Recorders Integrating Biological Events (SCRIBE),依靠的是反转录子(retrons),反转录子组成一些细菌的遗传系统,产生单链DNA;细菌通常用单链DNA改变它们的宿主。Lu的团队在细菌的细胞中插入一个反转录子,只有当细菌响应特定的刺激(如化学物质、光)时,该反转录子才会开启,产生特定的DNA。




Lu在他改造的响应光信号和其它常见生物试剂的细胞中测试了SCRIBE。其中一个成功的例子是,SCRIBE成功的让抗生素抗性基因突变的细胞响应光信号的记忆变得特别容易读取。当细胞生长在抗生素存在的环境中时,研究人员可以立刻看到哪些细胞包含新的突变基因。结果还可以通过细菌基因组测序来验证。




Lu说:SCRIBE系统还有很多潜在的应用,比如长期记录一种细胞的生存环境。活细胞可以水环境中放上一周,然后收集起来,再测定细胞的DNA,然后判断细胞所处的环境是否含有某种细菌或者毒素。SCRIBE还可以用于推动基础研究。当你从单细胞变成多细胞组织,每个细胞都遇到了不同的信号。SCRIBE可以让研究人员知道,每个细胞是如何来塑造自己的命运的。#p#分页标题#e#




波士顿大学的生物医学工程师Ahmad Khalil说:他们做了非常特殊的工作,将DNA转化为可读的形式,书写活细胞的记忆。我觉得这是合成生物学一个非常酷的新方向。




数据存储的未来:把宇宙写进DNA








嗨,莎士比亚,快到DNA里来




DNA存储的设想,据说诞生于酒吧中。当时欧洲生物信息学研究所副所长Ewan Birney和同事Nick Goldman在德国汉堡市的一家酒吧里苦恼着用什么可以替代昂贵的存储硬盘和磁带、以便处理日益繁多的数据。后来两人开玩笑说,DNA就是一个很好的存储设备啊,你看猛犸象就让我们了解了数万年前的许多信息。讲完,两人都立马意识到这不是不可能的,于是,伟大的构想就被写在了餐巾纸上(果然灵感无处不在)。




2013年的时候,历经三年时间,Ewan Birney和Nick Goldman的研究团队就在Nature上发表了研究成果他们把154首莎士比亚十四行诗、一张欧洲生物信息研究所的JPG格式图片、一份关于DNA分子结构的PDF学术论文、马丁路德金演讲我有一个梦想的26秒片段以及一个编码系统文档统统存进了微量的DNA里!




有关DNA存储的研究




Ewan Birney和Nick Goldman的研究为数据存储打开了一扇新的窗户,除了他们之外,也有其他科学家致力于DNA存储的研究。




同样在2013年,阿根廷科学家近日成功将该国国歌旋律以人工基因编码形式植入某种细菌染色体中。




2012年9月,哈佛医学院教授、著名遗传学家George Church(多届ICG大会的演讲嘉宾)的团队在Science杂志上发表的文章表示,他们将一本5.34万字的书籍、11张图片和一段Java程序存进了不到一沙克(亿万分之一克)DNA中!有人根据这个比例换算得出,1克DNA将能存储700TB数据,相当于1.4万张蓝光光盘,或233个3TB的硬盘。而George Church教授则表示:今后,拇指大小的设备或许就能存下整个互联网的信息。




还有更早的。据悉,2012年,台湾国立清华大学和德国一研究所合作,用三文鱼的DNA制造出单次写入、多次读取的存储器;2007年,日本科学家成功使用细菌DNA储存数据;而早在1986年,麻省理工学院一位被称为科学狂人的科学家Joe Davis就成功将5times;7像素的图片编码到DNA中。




为什么我们需要用DNA来存储数据




这个问题的答案,绝不是好玩,或为了创新而创新。我们常说,现在已进入大数据时代,这是个什么概念呢?想想你旅个游就能用高清照片和视频把4G的相机存储卡拍满,一年下来下的电影得存满250G的硬盘,你的搜素行为信息、网络自媒体上发布的信息、上传网盘的资料永远有服务商帮你备份,何况这世上还有千千万万个你,以及N多的内容提供商。照这个产出数据的速度,即使摩尔定律一直管用,这存储硬件的性能提高速度也跟不上人类产出数据的速度。




我们应该开始担忧数据泛滥可能带来的威胁,也无怪乎讲述大数据时代取舍之道的《删除》一书已出版就获得美国政治科学协会颁发的唐?普赖斯奖等奖励和主流媒体的好评。



#p#分页标题#e#




IDC和EMC联合出版的数字世界研究报告称,在2013年,全世界数据有4.4ZB,即44万亿亿字节,到2020年,全球数据将达到44ZB,即440万亿亿字节,相当于每个人产出的数据可能达到5000GB左右,而这在现在看来,是很有可能的。到时候,现有的存储数据将无法满足数据存储需求,新的存储设备必须在此之前出现。




图片来自EMC.com




为什么DNA能存储如此大量的数据?




DNA存储技术的与传统的存储技术不同,传统的电子存储是基于1这两个符号的组合,而DNA有A、T、C、G4个碱基,在编码上就比传统的二进制存储多了许多可能。




对于今后如何将现有二进制存储全部转换成DNA数字存储形式的问题,科学家也已相处办法,比如George Church团队就将二进制信息翻译成某个中间代码,再通过微流体芯片对基因序列进行合成,从而使该序列的位置与相关数据集相匹配,方便读取。(新浪科技书聿)




在读取的时候, 测序器和计算机会按照序列索引,将DNA中存储的信息顺序排列,并转化为计算机能够识别的数字语言。同时,读取的时候计算机还会扫描多个备份,如果哪个副本出错了,计算机都能够发现并予以纠正。研究发现,通过这种方式存储和读取一份遗传学教材,其出错率很低,仅为百万分之二,意味着只有几个单词拼写错误。




也许你会质疑,如果细胞死亡,不再进行复制,DNA里存储的数据是否会丢失?这一点George Church团队也考虑到了。他们创建了基于任意细胞的 DNA 信息归档系统,并利用喷墨打印机将使用化学方法合成的 DNA 片段嵌入到微小的玻璃芯片表面。这样就可以避免因细胞死亡而导致的数据丢失。(36kr)




DNA存储是否为未来的最佳存储选择




我们提到的两个研究都被认为是在之前的生物存储技术上前进了一大步。但现在说DNA存储技术即将可以大范围推广的话,未免为时尚早。作为一个新兴的存储介质,DNA的优势很突出,但缺点也同样明显。




作为存储设备,DNA具有无可比拟的有点:容量大、集成度高、无需依赖电源、存储量大、存储稳定、保存时间长、不需要维护等优点使它从目前来看,的确是很好的存储设备选择,而且,它的兼容性和二进制的数字化存储一样好,因为只要是生命体,DNA的基本元素A、T、C、G都是一样的。




但这个先进的存储设备也有着不方便的地方。比如,以目前的技术,我们可以很轻松的从DNA中读取信息,难的是将信息写入DNA的过程,以及保证数据的写入和读出都不出错。而且,DNA不能被重复写入,意味着信息无法更新,而且要阅读文档的话,必须等所有文档都解码完毕,不能边解码边读取。而且,从目前的技术角度来看,DNA存储技术的成本太高,操作复杂,想要近期从实验室走向市场的可能性不大



DNA本就存储着生物体的奥秘,是个非常大的数据盘,当克服了存储和读取上的难题,也许未来某一天,我们所有的硬盘、U盘、网盘都可以丢到一边,用一块硬币大小的DNA,就能存储我们一生需要的数据了





上一篇:科学家实现改造人类胚胎基因
下一篇:宇宙深处惊现快速射电暴 源头竟是微波炉
【玉璞集 YUPUG.COM】