给合成生物学的一次预警：当心计算机黑客的“恶意DNA入侵”

华盛顿大学蛋白质设计研究所的科学家正在使用该软件来建模和创建新疫苗。图片出处：INSTITUTE FOR PROTEIN DESIG

本文作者：武文浩

每一年，商业 DNA 合成产业每年都会向订购者交付数十亿核苷酸（nucleotides），成交额高达数亿美元，而随着 DNA 合成在相关领域内变得越来越普遍，有没有什么重要的事情是被忽略的？

在 Nature Biotechnology 最近接收的一封 “致主编信” 中，一组以色列研究人员提出了一个听起来蛮疯狂的想法：计算机黑客是否会诱骗合成生物领域的科学家，去创造一段有害或潜在风险的恶意基因片段？

仔细想想，这个担忧并非空虚来风。

在各个领域，网络信息安全都越来越被重视，但大多数学术用途的生物实验室，普遍缺乏有效的防火墙和网络信息安全基础架构来保证其所存信息的安全和完整。一旦有不法黑客借机恶意篡改 DNA 数据，并设法将负面影响扩散，后果很可能会不堪设想。比如将恶意程序安插在疫苗或药剂的生产过程中，经篡改的 DNA 合成订单信息或能在 “掩人耳目” 的情况下，被用于生产病原生物或有害蛋白质和毒素的核酸。

仅仅是对生产过程的很简单的攻击，都有可能会酿成灾难性后果。

危险 “陷阱”

假设 A 是某学术机构的生物研究员，并出于研究目的，向 B 所在的 DNA 合成公司下了一笔序列的订单，在这一过程中，DNA 序列的编辑软件和常用的 DNA 序列文件的保存格式都不能起到对文件加密的作用，而和当前大多数生物及医学领域的科研人员一样，A 希望能拥有更高的产量，对于会影响自身 “生产力” 的繁琐网络安全考量，他并不上心。

此时，出现了一名针对 A 的网络犯罪分子 C，由于当前 DNA 合成序列的生产过程对网络攻击抵抗能力并不强，C 轻易就能用恶意软件感染并控制 A 的计算机，将订单中的序列替换为恶意序列，并用网络攻击领域常见的恶意代码混淆，将恶意序列伪装成正常序列。如混淆成功，则匹配过程中所抽取的 200 个连续碱基对的子序列，在结果上都将显示正常，使得 B 在对序列进行比对时并不能看出异样，而这种混淆能在后来通过基于 CRISPR–Cas9（基因编辑工具）的序列删除和同源性修复被 “逆处理”，使 “正常” 序列变回 “恶意序列”。

B 在比对后认为序列 “正常” 并进行生产，交付时会附带测序报告，该报告会认为序列没有问题。

此时即使 A 出于谨慎考量寻求第三方测序服务，C 也能通过恶意软件篡改 A 提交给测序公司的数据。而如果 A 在错误地认定序列无误后，对这些合成的 DNA 用 CRISPR–Cas9 技术进行修改，就会触发 “恶意序列” 混淆过程的逆过程，使看似正常的序列变回 “恶意序列”。

整个黑客攻击场景假设的核心，便是生物学家用来从头开始 "打印"DNA 链、然后将它们组装在一起的软件，这个过程一般被称为 “DNA 合成”。

近年来，我们已经看到这种合成软件支撑了大量突破性的生物医学研究。例如，在开发新冠疫苗的浪潮之中，一些大型制药公司就在使用人造 DNA 链作为其实验性疫苗的组成部分之一。

不法分子通过网络攻击将正常 DNA 序列调包为 “恶意序列” 的过程示意图，图源：Nature bio

此前，华盛顿大学的研究人员曾于 2017 年最早提出过关于 DNA 合成领域所面临的信息安全隐患，其过程便与上面所提及的例子类似。

当时人们还认为这种提法有些超前，可能仍需一段时间才会变成一个需要在本世纪解决的问题。

而在 2020 年下半年，以色列复杂网络分析实验室的研究人员通过实验，证实了这种威胁的 “可实现性”，进而写下这篇阐述当前 DNA 合成领域所面临的信息安全隐患的 “致编辑信”。

这支团队将这种围绕基因研究供应链的攻击类型称为 “端到端的网络生化攻击”。尽管目前他们还未监测到现实中已经发生的案例，但这类事件的发生恐怕只是迟早问题，尤其是随着越来越多的基因研究走向更高程度的数字化和信息化。

略显过时的规范

当然，此前已经有人考虑过这种情况。

就权威行业指南来看，2010 年版的美国健康与人类服务指南已经要求，DNA 合成产品的制造者需要在实际生产前，先将订单序列与 “问题序列（危险及有害序列）” 数据库中所存有的序列进行比对，在比对完成无重叠后才能开始生产，虽然美国大多数合成 DNA 的供应商确实也都是这么做的，但不幸的是，目前病原菌序列的数据库尚不健全，而 “2010 年版的美国健康与人类服务指南要求” 也可谓是 “早已过时”。

在国际上，类似的规范还有国际合成生物学协会（IASB）的 2009 版规范。要求供应商比对订单序列，并对可疑订单的信息及下单方信息进行记录，但同样，该规范的时效性并不 “可靠”。

距今最近的文件，属国际基因合成协会（IGSC）的 2017 版规范。

它要求合成系统扫描 200 个连续碱基对（bp）中的每个子序列，在比对过程中使用 “吻合率” 的比对方法，并在筛选出可疑序列后交由人工检验，但人工检验昂贵且耗时，而如果不对筛选框架进行全面的渗透测试，一些致病序列或能成为 “漏网之鱼” 逃过审查。

这次研究中，以色列的研究人员成功地使伪装后的 “恶意序列” 逃过审查并进入生产过程，并在序列即将进入生产过程时将实情告知了国际基因合成协会，进而以生物安全原因取消了这笔订单。

除了阐述了当前 DNA 合成领域确实存在网络安全信息隐患，这支团队还提出了一些可能的解决方法，比如合成系统可以实施网络安全协议，比如在一笔订单上添加电子签名，并对签名进行变化（如启发式签名，人工智能行为分析）以识别任何可能的后植入的恶意代码；将当前的 200 个连续碱基对的子序列的比对标准缩减至 “逆混淆过程” 所需的最短的同源性导向修复模板长度。在有新情况时重新审查已完成的订单；增强数据共享，以使被恶意安插在多个合成器上的恶意指令能被发现；以及按以上为指导加强立法和监管。

只有提高警觉，当虚拟世界和现实世界之间的界限变得愈发模糊，人类社会才不会对这些新形态的安全事件防不胜防。

*Refrence：
[1]https://www.nature.com/articles/s41587-020-00761-y.epdf?sharing_token=WrWwDN-FkOdBex9by7Avv9RgN0jAjWel9jnR3ZoTv0NL8O3FZQt7i2a40oTwYLJPFz184wQMd47k4I9vP_m_KxdkwgB8s3TjKL3CWbYnVQOvuMrx9ODaGZMU7jFPAVy78oCfVyrz0df15z716-fLDxeCHnkIcmF6s88n63V4muk%3D

[2]https://www.zdnet.com/article/this-new-cyberattack-can-dupe-scientists-into-creating-dangerous-viruses-toxins/

[3]https://www.wired.com/story/malware-dna-hack/*

关于数据实战派

数据实战派希望用真实数据和行业实战案例，帮助读者提升业务能力，共建有趣的大数据社区。