麻省理工学院建立新模型可快速扫描癌细胞的整个基因组

2022-07-28 16:07:53 来源：cnBeta

癌细胞可能有成千上万的DNA突变。然而，这些突变中只有一小部分真正推动了癌症的发展。如果研究人员能够将这些有害的驱动突变与其他无害的“乘客”突变区分开来，他们就能确定更好的药物目标。为了促进这些努力，一个由麻省理工学院(MIT)科学家领导的团队已经建立了一个新的计算机模型，可以快速扫描癌细胞的整个基因组。它能识别出比预期更频繁出现的突变，这表明它们正在推动肿瘤的生长。

由于一些基因组区域的“乘客”突变频率极高，淹没了实际驱动突变的信号，这种类型的预测一直具有挑战性。

麻省理工学院的研究生Maxwell Sherman说：“我们创建了一种概率性的深度学习方法，使我们能够得到一个真正准确的模型，即基因组中任何地方应该存在的乘客突变的数量。然后我们可以在整个基因组中寻找突变意外累积的区域，这表明那些是驱动突变。”

在他们的新研究中，科学家们发现了整个基因组的额外突变，这些突变似乎有助于5%到10%的癌症患者的肿瘤生长。研究人员说，这些发现可以帮助医生确定有更大机会成功治疗这些病人的药物。目前至少有30%的癌症患者没有检测到可用于指导治疗的驱动突变。

Sherman、麻省理工学院研究生Adam Yaari和前麻省理工学院研究助理Oliver Priebe是这项研究的主要作者，该研究最近发表在《自然-生物技术》上。麻省理工学院西蒙斯数学教授、计算机科学与人工智能实验室(CSAIL)计算与生物学小组负责人Bonnie Berger是这项研究的资深作者。哈佛医学院和波士顿儿童医院的副教授Felix Dietlein也是该论文的作者。

一个新的工具

自从二十年前人类基因组被测序以来，科学家们一直在搜索基因组，试图找到那些导致细胞不受控制地生长或逃避免疫系统而导致癌症的突变。这已经成功地产生了一些目标，如表皮生长因子受体(EGFR)，它通常在肺部肿瘤中发生突变，以及BRAF，一个黑色素瘤的常见驱动因素。这两种突变现在都可以被特定的药物作为目标。

虽然这些目标已被证明是有用的，但编码蛋白质的基因只占基因组的约2%。其他98%的基因也包含可能发生在癌细胞中的突变，但要弄清楚这些突变是否有助于癌症的发展则要困难得多。

Berger说：“确实缺乏能够让我们在蛋白质编码区域之外搜索这些驱动突变的计算工具。这就是我们在这里要做的事情：设计一种计算方法，让我们不仅查看基因组中2%的蛋白质编码，而且查看100%的蛋白质编码。”

为了做到这一点，研究人员训练了一种称为深度神经网络的计算模型，以搜索癌症基因组中比预期更频繁出现的突变。作为第一步，他们在来自37种不同类型的癌症的基因组数据上训练该模型，这使得该模型能够确定这些类型中每一种的背景突变率。

Sherman说：“我们的模型真正好的地方在于，你为一个给定的癌症类型训练一次，它就能同时学习该特定类型癌症在整个基因组中的突变率。然后你可以对照你应该看到的突变数量查询你在病人群中看到的突变。”

用于训练模型的数据来自Roadmap表观基因组学项目和一个名为泛癌全基因组分析(PCAWG)的国际数据集。该模型对这些数据的分析给了研究人员一张整个基因组预期乘客突变率的地图，这样，任何一组区域(小到单碱基对)的预期突变率都可以与整个基因组任何地方的观测突变数进行比较。

利用这个模型，麻省理工学院的科学家们能够增加可驱动癌症的已知突变景观。目前，当癌症患者的肿瘤被筛查出致癌突变时，大约三分之二的时间会出现一个已知的驱动因素。麻省理工学院的新研究结果为另外5%到10%的患者提供了可能的驱动突变。

研究人员关注的一种非编码突变类型被称为"隐性剪接突变"。大多数基因由外显子序列和内含子组成，外显子编码蛋白质构建指令，内含子是间隔元素，通常在信使RNA被翻译成蛋白质之前被修剪掉。"隐性剪接突变"是在内含子中发现的，它们可以混淆剪接它们的细胞机器。这导致内含子在不应该出现的情况下被包括在内。

利用他们的模型，研究人员发现，许多隐性剪接突变似乎破坏了肿瘤抑制基因。当这些突变出现时，肿瘤抑制因子被错误地拼接并停止工作，而细胞失去了对癌症的防御之一。研究人员在这项研究中发现的隐性剪接点的数量约占在肿瘤抑制基因中发现的驱动突变的5%。

研究人员说，针对这些突变可以提供一种新的方法来潜在地治疗这些病人。一种仍在开发中的可能方法是使用被称为反义寡核苷酸(ASO)的短链RNA，用正确的序列修补变异的DNA片段。

“如果你能以某种方式使突变消失，那么你就解决了这个问题。那些肿瘤抑制基因可以继续运作，也许可以对抗癌症，”Yaari说。“ASO技术正在积极开发中，这可能是它的一个非常好的应用。”

研究人员发现非编码驱动突变高度集中的另一个区域是在一些肿瘤抑制基因的非翻译区。肿瘤抑制基因TP53在许多类型的癌症中是有缺陷的，已经知道它在这些序列中积累了许多缺失，被称为5'非翻译区。麻省理工学院的团队在一个名为ELF3的肿瘤抑制因子中发现了同样的模式。

科学家们还利用他们的模型来研究已经知道的常见突变是否也可能驱动不同类型的癌症。作为一个例子，研究人员发现，以前与黑色素瘤有关的BRAF也有助于其他类型癌症中较小比例的癌症进展，包括胰腺、肝脏和胃食道。

“这说明常见驱动因素和罕见驱动因素之间实际上有很多重叠之处。”Sherman说：“这为治疗的再利用提供了机会。这些结果可以帮助指导我们应该建立的临床试验，以扩大这些药物从仅仅在一种癌症中被批准，到在许多癌症中被批准并能够帮助更多的病人。”

关键词：计算机模型蛋白质编码驱动突变人工智能

麻省理工学院建立新模型 可快速扫描癌细胞的整个基因组

相关阅读

精彩推送

热点文章

推荐文章

麻省理工学院建立新模型可快速扫描癌细胞的整个基因组