新闻中心

杏彩体育互联网行业前景分析网络技术网络技术基础学什么AI 成功改写人类 DNA:

2024-04-28 22:49:50
浏览次数:
返回列表

  杏彩体育官网app原标题:AI 成功改写人类 DNA:全球首个基因编辑器开源,近 5 倍蛋白质宇宙 LLM 全生成

  【新智元导读】刚刚,分子生物学界引爆核弹级消息:人类的 DNA,已经能由 AI 重新改写了!初创公司 Profluent 宣布开源了世界首个 AI 设计基因编辑器,成功编辑了人类细胞中的 DNA。这可太科幻了,如果有机会,你会选择「改造」自己的 DNA 吗?

  就在刚刚,初创公司 Profluent 宣布,完全由 AI 设计的基因编辑器,已经成功编辑了人类细胞中的 DNA。

  就像 ChatGPT 能生成诗歌一样,Profluent 这个全新的 AI 系统,可以让我们编辑自己 DNA 的微观机制生成蓝图。

  在迄今最广泛的基于 CRISPR 的基因编辑系统数据集上,研究者训练了 LLM。这些 LLM 产生的蛋白质,将几乎所有天然存在的 CRISPR-Cas 家族的多样性,扩大了 4.8 倍!

  并且,基因编辑器在人类细胞中显示出了与 SpCas9(一个示例基因编辑器)相当或更好的活性和特异性,同时距离超过 400 个突变。

  这也就意味着,我们掌握了自己的基因组密码互联网行业前景分析。未来的科学家,会比今天更精确、更快速地对抗疾病。而且,公司还决定,会在 OpenCRISPR 协议下,自由释放这些 DNA 分子。

  Profluent 联创 Ali Madani 表示,「尝试用 AI 设计的生物系统,编辑人类 DNA 是一次科学登月之旅」。

  有网友表示,「是时候重新编程人类了吗?AI 驱动的 CRISPR 技术进步,正挑战着基因伦理的边界」。

  这项技术和驱动 ChatGPT 的方法是一样的,它在分析大量生物数据后,创造了新的基因编辑器,包括科学家已经用于编辑人类 DNA 的微观机制。

  在以前,如果我们不幸得了镰状细胞性贫血和失明这样的遗传性疾病,往往束手无策,而现在,CRISPR 技术可以直接让我们修改导致这些疾病的基因了!

  CRISPR 方法使用的是我们在自然界中发现的机制:从细菌中收集的生物材料,竟然神奇地赋予了这些微生物抵抗细菌的能力。

  加州大学旧金山分校生物工程和治疗科学系教授兼系主任 James Fraser 介绍说,这些生物材料从未在地球上存在过,而 Profluent 的 AI 系统,正是从大自然中学习如何创造这些全新的东西。

  如果这些技术继续发展,所产生的基因编辑器,或许会比我们人类经过数十亿年进化磨练的基因编辑器更灵活、更强大。

  现在,Profluent 表示正在开源 OpenCRISPR-1 编辑器,这也就意味着,个人、学术实验室和公司都能免费使用这些技术。

  AI 界常见的开源,可以加速新技术的产生。不过,对于生物实验室和制药公司来说,像 OpenCRISPR-1 这样的开源并不常见。

  当然,Profluent 也只是开源了其 AI 技术生成的基因编辑器,并没有开源 AI 技术本身。

  目前,蛋白质工程界想要复制功能性蛋白质杏彩体育,或者用「定向进化」来迭代修饰,通常还是需要从自然界中复制。

  许多对人类有重大意义的蛋白质,都是我们偶然发现的,比如狗的胰岛素、酸奶设施中的 Cas9 和经常造成食物中毒的肉毒杆菌毒素。

  大型生成蛋白质语言模型的作用,就是可以捕获使天然蛋白质发挥作用的基本蓝图。它们勾勒出一条捷径,可以绕过进化的随机过程,推动人类有意识地为特定目的设计蛋白质。

  Cas9 蛋白,是 CRISPR-Cas9 基因编辑系统的核心组成部分,它是一种 RNA 引导的核酸酶,可以搜索人类基因组中的所有 30 亿个核苷酸,并在一个特定位点进行切割。

  这种核酸酶与单导 RNA(sgRNA)复合在一起,sgRNA 由一个在结构上与蛋白质相互作用的支架和一个间隔序列组成,后者可通过编程靶向基因组中的任何位点。

  棘手的是,大多数 Cas9 蛋白的长度超过 1000 个氨基酸,整个设计空间包含 20^1000 种可能的序列,比起可观测宇宙中的原子数量,它都要高出几个数量级!

  而且,由于这些蛋白质必须以精确的顺序协调许多相互作用,才能实现精确切割,因此即使是单个错位突变,也可能完全消除蛋白质的功能。

  如果通过实验穷尽所有可能的序列变异,许多科学家几辈子时间都做不完。然而,AI 系统却能很轻松地探索整个搜索空间,发现功能性的基因编辑器。而且,只需要花几个小时!

  在具体实现过程中,研究人员对 26TB 组装的「基因组」和「元基因组」数据库系统进行挖掘,整理出超 100 万个 CRISPR 操纵子(operon)的数据集。

  通过训练 OpenCRISPR,AI 从大规模序列和生物背景中学习,生成了自然界不存在的数百万种 CRISPR 样蛋白。

  研究人员称,AI 生成了自然界中已发现的「CRISPR-Cas 家族」的 4.8 倍的蛋白质集群,完全实现了指数级扩展!

  与原型基因编辑效应器 SpCas9 相比,几个生成的基因编辑器显示出,可比或改进的活性和特异性,同时在序列上相差 400 个突变。

  最后,研究人员还证明了 AI 生成的基因编辑 OpenCRISPR-1 与碱基编辑的兼容性。

  生成蛋白质语言模型通常是在,大型涵盖多种系统发育和功能的天然蛋白序列的数据集上,进行预训练 。

  然而,对于特定的应用,例如新型基因编辑器的生成,有必要将生成过程导向特定的感兴趣的蛋白家族子集。

  与 CRISPRCasDB 和 CasPDB 等精选数据库,以及世界上最大的蛋白质资源 UniProt 相比,最新创建的数据库显示出更大的多样性。

  通过总结共性,研究人员发现了所有 CRISPR-Cas 蛋白的单一模型,能够生成跨家族的不同序列。

  为了生成新型 CRISPR-Cas 蛋白,作者在 CRISPR-Cas Atlas 上微调了基于 ProGen2 的语言模型,由此平衡了蛋白家族的表示和序列簇大小。

  从这个模型中,研究者生成了 400 万个序列。其中一半是直接从模型生成的,另一半是由天然蛋白质 N 或 C 末端的最多 50 个残基提示,以引导向特定蛋白的生成。

  为了评估其新颖性和多样性,作者使用 MMseqs2 对每个家族的生成序列和天然序列按 70% 的同一性进行了聚类。

  结果发现,与 CRISPR-Cas 图谱中的天然蛋白相比,生成序列实现了 4.8 倍的多样性扩展。

  对于天然蛋白质很少的家族,比如 Cas13 和 Cas12a,生成序列的多样性分别增加了 8.4 倍和 6.2 倍。

  另外,只需要极少的上下文,即提供 50 个或更少的残基,就能针对某一特定科引导序列生成与感兴趣的科保持一致。

  虽然许多 CRISPR-Cas 蛋白已被用于基因组编辑 ,但 Cas9 仍是应用最广泛的一种。

  这一模型生成可行的类 Cas9 序列的速度是 CRISPR-Cas 模型的 2 倍(54.2%),而且需要任何提示。

  为了探索 II 型效应器的潜在序列分布,研究人员使用 Cas9 模型生成了 100 万个 Cas9 蛋白。

  生成的可存活代(n=542,042)与同一性为 40% 的天然 Cas9 聚类在一起,并用作构建最大似然系统发育树的输入(图 2a)。

  新的系统发生群分布在整个树中,这表明该模型捕捉到了 Cas9 的全部多样性,并没有过度拟合任何特定系。

  生成的序列与 CRISPR-Cas 图谱的差异很大,与任何自然序列的平均同一性只有 56.8%(图 2c)。

  总体而言,生成的序列与同一蛋白质簇中天然蛋白质的长度密切匹配,皮尔逊相关性为 0.97(图 2d)。

  此外,图 2e 显示了,天然 Cas9、祖先序列重建和 48 个生成蛋白的靶上和脱靶的编辑效率。图 2f 展示了自然 Cas9、祖先序列重建互联网行业前景分析,以及生成蛋白在靶向编辑效率和特异性方面的对比。

  然后,研究者进一步将关注范围缩小到 CRISPR-Cas9 系统,并在 CRISPR-Cas 图谱中的 238,917 个 Cas9 蛋白上,训练了蛋白质语言模型。

  使用这些模型,研究者生成了可与 SpCas9 互操作的 Cas9 样蛋白。也就是说,它们与基因组的相同部分(PAM)结合,并与相同的 sgRNA 相容,因此,它们可用于相同的应用。

  ▲ 多种生成的核酸酶(绿色),包括 OpenCRISPR-1(深绿色),具有与 SpCas9(蓝色)相当或更高的靶向活性,但脱靶活性要低得多

  研究者们还发现,当与脱氨酶配对时,OpenCRISPR-1 和 SpCas9 在精确编辑靶基因组中的单个碱基时,具有相似的活性和特异性。

  他们还能保持碱基编辑活性,同时通过用由另一种 Profluent 训练的蛋白质语言模型生成的脱氨酶,来提高特异性。

  最后,为了进一步优化所生成的核酸酶的活性,研究者还训练了一个模型来为任何给定的 Cas9 样蛋白生成相容的 sgRNA。

  与 SpCas9 的 sgRNA 相比,这些生成的 sgRNA 可以提高所测试的五种蛋白质中四种产生的核酸酶的活性。

  ▲ 对于测试的 5 种生成的核酸酶中的 4 种,使用模型生成的 sgRNA 提高了编辑效率 AI,正在改善医疗保健

  比如,华盛顿大学的科学家们正在用 ChatGPT 和 Midjourney 背后的方法来,创造全新的蛋白质,并且正在努力加速新疫苗和药物的开发。

  如今大火的许多生成式 AI,背后都是由神经网络驱动的。通过分析大量数据,神经网络就习得了某些技能。

  比如,Midjourney 以神经网络为基础,分析了数百万张数字图像,以及描述每张图像的标题。这样,系统就学会了识别图像和文字之间的联系,可以画出「犀牛从金门大桥上跳下来」这样的画。

  这个模型从氨基酸和核酸序列中学习,正是这些化合物,定义了科学家用来编辑基因的微观生物学机制。

  本质而言,它就是分析了从自然界中提取的 CRISPR 基因编辑器的行为,学习了如何生成全新的基因编辑器。

  Profluent 的 CEO Ali Madani 介绍道,这些 AI 模型都是从序列中学习的,无论是字符、单词、计算机代码,还是氨基酸的序列。

  Madani 先生在加州伯克利 Profluent 实验室内,此前他曾在软件巨头 Salesforce 的人工智能实验室工作

  目前,Profluent 尚未对这些合成基因编辑器进行临床试验,因此尚不清楚它们是否能与 CRISPR 的性能相媲美,甚至超过 CRISPR。

  UC 伯克利创新基因组学研究所的基因编辑先驱兼科学主任费 Fyodor Urnov 表示,科学家们并不缺乏天然存在的基因编辑器,用来对抗疾病。

  如果 Profluent 的技术继续改进,终有一天,科学家们可以用更精确的方式编辑基因。到那时,我们可能身处这样一个世界 —— 许多药物和治疗方法,都能快速为个人量身定制。这是今天的人们所不敢想的。

  长期以来,科学家们一直在警告:不要使用 CRISPR 进行人类增强!因为,这是一项相对较新的技术,很可能会产生不良的副作用,比如引发癌症。而且还有些人会用于非道德的用途,比如转基因人类胚胎。

  但 Fraser 博士表示,如果真的有人想用它们做坏事,也只会使用现有的东西,而非 AI 创建的编辑器。

  广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。返回搜狐,查看更多