DNA 是否可以存储除了遗传信息以外的复杂信息?目前有哪些技术难点?

这个题目两说,要是是从 DNA 的本色来讲,DNA 自身便是一种遗传物资,它存储的便是遗传信息,没有其余。

但要是换一个思绪,应用 DNA 的特点,能否能构建一个新的存储体系对象,那设想的空间就年夜了,以至有迷信家已把 DNA 看做是数据存储的最终处理计划了!

要想明白这个没有雅点,咱们就患上从 DNA 的根基构造提及。应当人人最少都从高中的生物学课上相识过,DNA 是一条双螺旋构造的长链,而将这条长链进一步解旋之后,咱们进一步的发明晰 DNA 的基础构成单位—碱基,分手是腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)、胸腺嘧啶(T)。而恰是这个流动的特征,让 DNA 有了成为数据存储载体的后劲。

提及数据,轻微有点盘算机知识的友人,一建都听过二进制(binary)的没有雅点。古代的盘算机以及依靠盘算机的设施里都运用二进制,每一个数字称为一个比特(Bit:Binary digit),能够说,正在盘算机的天下里,一切的信息回归到根源上,惟独 0 以及 1。而 0 以及 1 能够抒发出全天下的一切文字以及言语符号。

容易论述一下,咱们人类接纳的是十进制算术法,重要缘故是由于咱们有 10 个手指头。那对运用二进制的盘算机而言,就要把 3,4,5,6,7,8,9,10 都转换惟独 0 以及 1 的字符串。譬如 150 的二进制体例是:1001 0110

好,道理就没有正在这里开展了,横竖你们就晓患上,二进制的天下,便是能够用 0 以及 1 两个数字构成的字符串,示意一切信息,譬如字母,数字等。那末异样的道理,DNA 的构成惟独流动的 A T G C 四种字符,那末理论上只要求先用二进制对 A,G,C,T 四个字母停止编码,就能以异样的逻辑,剖析出对应 DNA 序列所代表的含意。譬如咱们后面举的例子,150 这个数字的二进制体例是:10010110,那当初按上面这个图的对应,150 这个数字的 DNA 体例就应当是:CGGC

是没有是 DNA 存储数据的道理就年夜略弄晓畅了。以是实践上,现正在能够存储正在盘算机里的任何数据,都能够用分解一段 DNA 序列的形式来接替,正在读取的时刻,只要求经过测序的手法,加之编译的规定,把这段 DNA 序列读取并翻译进去即可。

譬如上面这些文字以及图象便是经过读取 DNA 序列失去的。

2012 年,哈佛年夜学的遗传学传授 George Church(对,便是起初到中国来圈了有数 funding,开了 N 个公司的那位,当初又再搞新生猛犸象的公司)以及他的共事就把一本 52,000 字的书编码进了数千个 DNA 片断里

那末接上去就说一说,用 DNA 作为数据存储载体的上风。最重要的就两点:

I. 存储前提容易:

咱们都晓患上,自从盘算机问世来,数据的存储,重要照样靠把数据读写到硬件载体外面,从最最先的胶片,到软盘,到光盘,再到当初的 USB 挪移硬盘。尽管写入数据的光阴,已能够存储的数据量已有了极年夜的提拔,但整体这些存储设施,照样对比软弱的,譬如物理损害,灰尘,温渡太低等,都有能够形成数据的毁坏与遗失。

但 DNA 就纷比方样了,基础没有需求维护,正在室温枯燥前提下,轻微有点守护,都能够保障多少十年没有会降解,要是是高温生存,那就更稳固了。

II. 需求的物理面积超超超超级小:

都晓患上现正在,咱们已进入了数据爆炸的时期,各其中央,无时无刻没有正在发生着少量的数据,就从生物学层面来看,一集体的全基因组数据,按 30X 测序深度来算,年夜略数据量是正在 30GB 阁下,那末咱们的肠胃外面的种种微生物,要是要齐全弄清晰它们的信息,其数据量又要凌驾多少个数目级,假如,将来人类的衰弱都因此数据作为驱动,又钻研职员预算,要是从去世亡就最先纪录,囊括种种影象学,生化等一系列数据,一集体,这一辈子的数据量总以及,就能够到达惊人的 1PB!

这是甚么没有雅点?百度阳泉数据核心数据存储量年夜略正在 4000PB,可存储的信息量至对于 20 多万其中国国度图书馆的藏书总量;以是一个百度的数据核心,也就能存储 4000 集体,这毕生的衰弱数据而已。而百度阳泉数据核心长甚么模样呢?额……长如许,一期总修筑面积达 12 万平米,花了 14 亿,修了 7 年。

而 DNA 是纳米级其余物资,依据预算,215PB 的数据,要是用 DNA 停止存储,只要求 1g DNA,以是全部百度数据核心的数据,只要求 20g 的 DNA 就够了!这便是为甚么钻研职员说,要是用 DNA 存储,全天下现正在为止发生的一切数据,只要求一个斗室间就够放了….

那末,既然这个形式云云性感,目后面对的瓶颈又是甚么呢?重要照样两点:

(1) 读写速率太慢:现正在的手艺,正在分解 DNA 上,年夜略每一增添一个碱基需求 1 秒钟的光阴,按这个速率,能够存一首低音质的 MP4 文件,都需求多少年的光阴。固然,现外行业都是用并行的形式,譬如分红多少千个片断,同时停止分解,但如许的老本,对光阴的提拔效力照样没有够。

(2) 便是分解 DNA 时能够发生的同伴率,现正在来讲照样没有低的,这就致使数据的存储能够会由于某些分解错配而失真,譬如原先应当是 GAAACC 的序列,分解的时刻变为了 GAACC,或一个片断缺失,间接变为了 GCC。

固然,尽管另有患上多中央待欠缺,但 DNA 存储再接上去很长的一段光阴,一建都是人类致力的一个重要偏偏向,咱们国度也已有相干的公司了(别多想,固然没有是咱们的公司,我也没有是托儿,我只晓患上他们正在干这个,但详细的手艺程度欠好说)。

 

觉得好的话记得打赏赞助小灰灰哦,小灰灰灰更有动力的,谢谢

小灰灰

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: