欢迎访问生活小百科!

生活小百科

您现在的位置是:生活小百科 > 人物 >

人物

北京时间6月22日消息,在最近的一项新研

发布时间:2021-06-28人物评论
北京时间6月22日消息,在最近的一项新研究中,美国麻省理工学院的科学家开发了一种标记和检索DNA数据文件的技术,这可能能让DNA数据存储成为可能。  此时此刻,地球上大约有1

  哈佛医学院遗传学教授乔治·丘奇并没参与这项研究,但他将这项技术描述为“常识管理和搜索技术的巨大飞跃”。

  “虽然大家可能还需要一段时间才能将DNA作为数据存储介质,但现在在Covid-19测试、人类基因组测序和其他基因组学范围中,对于DNA和RNA样品的低本钱和大规模存储的解决方法都有非常紧迫的需要,”巴思说道。(任天)

  稳定的存储介质

  此时此刻,地球上大约有10万亿吉字节(GB)的数据量,而每一天,人类制造出来的电子邮件、照片、社交媒体动态和其他数字文件加起来,又有250万吉字节的数据。这部分数据中的大多数都存储在名为“艾字节(exabyte,简称EB)数据中心”的巨大设施中(1EB等于10亿GB),其规模可能有几个足球场那样大,建造和维护本钱约为10亿USD。

麻省理工学院的生物工程师开发了一种轻松检索DNA数据文件的方法。这可能是利用DNA存储大量照片、图像和其他数字内容的重要一步麻省理工学院的生物工程师开发了一种轻松检索DNA数据文件的办法。这可能是借助DNA存储很多照片、图像和其他数字内容的要紧一步

  詹姆斯·巴纳尔说:“在现在的定义验证阶段,大家的搜索速度是每秒1000字节(1KB)。大家的文件系统的搜索速度是由每一个胶囊的数据量大小决定的,而现在限制数据量大小的原因就是在DNA上写入100兆字节(MB)数据所需的高昂本钱,与可以并行用的分类器的数目。假如DNA合成变得足够实惠,大家就可以用这种办法将每一个文件存储的数据量最大化。”

  现在,DNA文件一般用PCR(聚合酶链式反应)办法来检索。每一个DNA数据文件都包含一个与特定PCR引物结合的序列。为了读取某个特定的文件,需要将该引物添加到样品中,找到并放大所想要的序列。然而,这种办法的一个缺点是,引物与目的序列以外的DNA序列之间可能存在串扰,致使非必须的文件输出。除此之外,PCR的检索过程需要用到酶,最后会消耗库中的大多数DNA。

  “这有点像在干草堆里找一根针,由于其他所有DNA都没被放大,因此基本上它们都被扔掉了,”巴思说。

   北京时间6月22日消息,在最近的一项新研究中,美国麻省理工学院的科学家开发了一种标记和检索DNA数据文件的技术,这可能能让DNA数据存储成为可能。

  “在DNA中写入、复制、读取,与用DNA进行低能耗的档案数据存储方面,大家获得了迅速进步,但这也使得从巨大的数据库(10^21字节,泽字节规模)中精确检索数据文件变得极为困难,”丘奇说,“这项新研究引人注目的地方在于,它用一个完全独立的DNA外层解决了这个问题,扩展了DNA的不同属性(杂交而非测序),而且用的是现有些仪器和化学试剂。”

  这种存储数据的新办法面临着很多障碍,第一就是合成这样很多DNA需要耗费的本钱。现在,写入1拍字节(100万GB)的数据需要花费1万亿USD。为了与磁带(一般用于存储档案数据)角逐,巴思估计DNA合成的本钱需要减少约6个数目级。他指出,这一目的可能会在10年或20年内达成,就像过去几十年来闪存存储信息的本钱大幅降低一样。

  研究职员所用的条形码——单链DNA序列——取自哈佛医学院遗传学和医学教授史蒂芬·埃利奇开发的序列库,其中包含了10万个序列。假如给每一个文件贴上两个如此的标签,就可以唯一地标记100亿(10^10)个不一样的文件;假如每一个文件上有4个标签,就可以唯一地标记10^20个文件。

  研究中的每一个文件都有相应的条形码标签,如“猫”或“飞机”等。当研究职员想要提取一个特定的图像时,他们会取出一个DNA样本,加入与目的标签相对应的引物。比如,老虎的图像对应的标签是“猫”“橘色”和“野生”,而家猫的图像对应“猫”“橘色”和“家养”。

  麻省理工学院的研究小组开发了一种新的检索技术,期望取代PCR办法。他们将每一个DNA文件封装到一个微小的二氧化硅胶囊中,每一个胶囊都贴上了由单链DNA组成的“条形码”,与文件内容相对应。为了证明这种办法的本钱效益,研究职员将20个不一样的图像编码到大约长度为3000个核苷酸的DNA片段中,这大致等于100个字节(他们的研究还显示,这部分胶囊可以容纳高达1GB的DNA文件)。

  “假设写入DNA的技术已经非常先进,可以达成在DNA中写入1艾字节或1泽字节(zettabyte,简称ZB,1ZB=1000EB)数据的本钱效益,会发生什么?你会有一大堆的DNA,也就是无数的文件、图像或电影和其他东西,但你需要在其中找到想要的某一张图片或某一部电影,”巴思说,“这就像大海捞针。”

  解决DNA文件检索难点

  除去本钱以外,用DNA存储数据的另一个主要瓶颈是,大家非常难从所有文件中挑选出想要的文件。

这些由二氧化硅制成的球体便是DNA“文件”,每个球体中都包含编码特定图像的DNA序列,其外部覆盖有描述图像内容的核苷酸条形码这部分由二氧化硅制成的球体便是DNA“文件”,每一个球体中都包含编码特定图像的DNA序列,其外部覆盖有描述图像内容的核苷酸条形码

  数字存储系统将文本、照片和其他种类的信息都编码为一系列的0和1,同样的信息也可以用构成遗传密码的4种核苷酸(A、T、G和C,即腺嘌呤、胸腺嘧啶、鸟嘌呤和胞嘧啶)编码在DNA中。比如,G和C可以代表0,而A和T代表1。

  科学家已经证明,图像和文本可以编码为DNA,但大家还需要一种从很多DNA片段混合物中挑选出所需文件的容易办法。在新研究中,马克·巴思及其同事展示了一种办法,能将每一个数据文件封装到一个6微米的二氧化硅球形“胶囊”中,并用DNA短序列作为标签,以显示其文件内容。

  巴思同时也是麻省理工学院和哈佛大学博德研究所的成员。“大家需要新的解决方法,来存储世界正不断积累的很多数据,特别是档案数据,”他说,“DNA的密度甚至是闪存的1000倍。另一个有趣的特质是,DNA聚合物一旦制造出来,它就不会再消耗任何能量。你可以把数据写入DNA,然后永久存储起来。”

  借助这种办法,研究职员从包含20张图像的DNA文件中准确提取出了以DNA序列形式存储的单个图像。考虑到可以用到的标签数目,这种办法最多能扩展到10^20个文件。这项研究发表在日前的《自然-材料》(Nature Materials)杂志上。论文的主要作者包括麻省理工学院的高级博士后詹姆斯·巴纳尔、前麻省理工学院研究助理泰森·谢泼德和麻省理工学院的研究生约瑟夫·柏林特。

  这部分引物用荧光或磁性颗粒标记,便于从样本中提取并辨别匹配片段。通过这种办法,研究职员可以将需要的文件移出来,剩下的DNA则完整地放回去,继续存储数据。他们的检索过程允许布尔逻辑语句,如“总统和18世纪”会生成“乔治·华盛顿”的结果,这非常类似Google的图像检索。

研究人员将这样的图像储存在DNA中研究职员将如此的图像储存在DNA中

  作为存储介质,DNA还具备其他几个特征。第一,它很稳定,而且合成和测序都相当容易(但现在还十分昂贵)。第二,它具备特别高的存储密度——1个核苷酸等于2个比特,大约为1立方纳米。因此,以DNA形式存储的数据完全可以放在大家的手掌中。

  很多科学家觉得,解决天量数据存储问题的另一种方法在于包含大家遗传信息的生物大分子:脱氧核糖核酸(DNA)。从地球生命诞生到今天,DNA已经进化到可以以极高的密度存储很多信息。麻省理工学院的生物工程学教授马克·巴思表示,理论上一个装满DNA的咖啡杯就可以存储世界上所有些数据。

  巴思设想这种DNA封装技术可以用于存储“冷”数据,即保存在档案中但不常常访问的数据。现在,他的实验室已经成立了一家名为Cache DNA的初创公司,正在开发DNA的长期存储技术,既可以用于长期的DNA数据存储,也可以用于短期的临床和其他现有些DNA样品存储。

  • 上一篇:没有了
  • 下一篇:没有了
广告位