编者按:新药研发的过程是一个耗资大、周期长以及风险高的行业,传统的药物研发据统计,平均研究每一个新药从靶点发现到药物上市需要大约10年的时间和需要大约20亿美元的研究经费。
如今,人工智能正在改变这一现状。Insilico Medicine这首次利用AI成功地将生物学和化学结合起来,发现了一个新的生物靶点,以及相应的候选药物,整个研发过程仅耗费短短18个月,研发成本只有260万美元,相当于类似项目的十分之一。
作者 | 阿司匹林
出品 | CSDN
新药研发的贵,超出想象!
一款创新药物的研发过程往往需要耗费数十年,数十亿美元,且失败率达90%以上。而AI的发展,特别是能够精确地基于氨基酸序列,预测蛋白质的3D结构的AlphaFold的突破,为AIz推动生物医药领域的发展带来了巨大想象空间。
据悉,2020年,FDA共批准53款新药上市,其中35种是小分子药物,这是史上新药获批数量最高的一年,而且这些药物中的许多都是针对已知分子靶点。发现能够作用于广泛适应症新靶点的新分子是极其罕见的。
如今,一家利用AI来变革医药研发流程的初创公司Insilico Medicine(英矽智能),首次利用许多相互关联的深度学习模型和其他先进的人工智能技术,成功地将生物学和化学结合起来,发现了一个新的生物靶点,并生成了能够作用于特发性肺纤维化 (IPF)这一非常难治疾病的一个新的小分子,目前已经达到达到临床前候选化合物研究阶段。
Insilico Medicine表示,为了成功获取临床前候选药物,Insilico Medicine设计并合成了不超过80个分子,其中有几个分子达到临床前候选化合物的水平,这是迄今为止取得的前所未有的命中率。 而整个研发过程仅耗费短短18个月,研发成本只有260万美元,相当于类似项目的十分之一。
一、费时、烧钱、失败率高, 新药研发的生产效率难题
据了解,像罗氏、默克之类的大型制药公司中,会创建化合物库,里面包含几十万到上百万的小分子。当确定一个靶点后,这个小分子库就成了寻找「钥匙」的地方,虽然范围大大缩小,但这个过程仍会花费相当长的时间。
在传统的药物研发过程中,需要经历疾病假设-靶点识别-靶点筛选-靶点验证-苗头化合物发现-先导化合物筛选-先导化合物优化-动物实验-提名候选药物-临床研究等研发流程。
因此,费时、烧钱、失败率高,依然是靶点药物筛选不得不面对的「痛点」。
1、疾病假设
这一过程从确定一种有关疾病的假说开始,通常是要发现导致疾病或病理的一种功能失调的蛋白质。蛋白质是我们身体的主力,它们完成了我们生存所需的大部分生物任务:从合成分子、在细胞和组织之间介导信号,到抗击感染。大多数疾病都是由一种或几种蛋白质在某种程度上的功能失常造成的:它们可能具有错误的形状或化学成分,这些错误会导致错误的生化反应中,从而导致对身体的全身损伤。任何一种蛋白质的细微变化都可能导致严重的后果,甚至死亡。在疾病发展和进展中起作用的蛋白质即是我们所谓的靶点。
2、靶点验证
一旦确定靶点,必须进行密集的后续研究,以证明选择是正确的---这个过程被称为靶点验证。这项工作包括各种研究,从解决靶点蛋白的晶体结构到确认其与相关疾病的关联。靶点和疾病之间的联系是新药研发的关键一步,它可能导致整个计划的成功或失败。即使我们尽了一切努力来了解靶标在疾病中的作用,但只有在数年之后,也就是在人体临床试验期间,靶点选择的正确性才能最终确定。
3、先到化合物筛选
靶点识别和验证之后是发现影响故障蛋白的方法---通常是阻断或改变它的活性。这一阶段是由药物化学部门或专门合作的研究公司完成的,涉及到大规模的筛选项目,其中需要测试数千或数百万种化合物,看它们是否能以有益的方式影响靶点。具有可接受活性的分子称为药物作用靶点的苗头化合物(hits),在这些苗头化合物中,大多数将被证明是假阳性的,只有一小部分最终被证实并被筛选成为先导化合物(leads)。
4、先导化合物优化
虽然先导化合物在目标靶点上显示出显著的活性,但仍需要对它们的其他关键参数进行优化---代谢稳定性、安全性、生物利用度和其他特性。毕竟,如果活性物质不能有效地作用于靶点蛋白质,或者它针对体内多个不相关的蛋白质而导致不必要的副作用(毒性),那么活性物质就没有任何用处。
5、动物实验
先导药物优化过程中最重要的环节是一个或一组准备用于临床前研究的分子。这些分子随后会被用于动物身上(在体内)进行测试,看看它们是否能在实际的生物体内持续发挥预期的作用。如果先导药物的活性和安全性在动物实验中得到证实,这种分子最终将被提名为候选药物。然后,它可以继续进行临床前研究(IND-enabling),这是临床前药物发现过程的最后一步。IND-enabling研究是候选药物被监管机构(如美国食品和药物管理局FDA)接受用于人类临床开发的先决条件。
6、临床研究
临床阶段面临的是更高水平的投入,涉及高成本、高风险和严格的合规要求一因为在这一点上,实际的人的生命处于危险之中。尽管药物研发人员为保证候选药物的质量付出了巨大的努力,但在临床试验中仍会发生悲剧性的事故,导致患者因无法预测的副作用或未知的生物因素而死亡。这样的案例会导致项目立即终止,并给制药公司造成巨大损失。
上述过程很像赌场里的赌博,偶尔仅有一些分子能够顺利通过所有临床前和临床障碍,进入市场。到那时,它们就变成了医生开的药。
在2015年,FDA报告了60种获批药物,每种获批药物的研发成本平均高达6.98亿美元,并且有将近420亿美元用在了失败药物研发上。
药物研发的巨大成本主要在于昂贵的研究设备、设施和人才以及昂贵的临床试验高失败率后果---由于各种原因,高达90%的项目从未转化到市场应用。
二、成本降低几百倍,Insilico Medicine如何用平台化解决新药研发难题?
整个制药行业面临的共同的痛点可以总结为以下几点:
- 怎样找到合适的靶点或者全新的靶点来治疗某种疾病
- 找到靶点之后如何发现或者发明全新的化合物,并推向临床
- 怎样设计好的临床方案,以减少临床上的不可预测性
针对这三个痛点,Insilico Medicine推出了一体化的AI平台Pharma.AI,它包含3个关键组件:其一是靶点发现和多组数据分析引擎 PandaOmics, 其二是全新的分子设计引擎 Chemistry42, 其三是临床试验结果预测引擎 InClinico。
首先,PandaOmics主要是通过组数据分析来进行靶点发现。利用 PandaOmics 靶点发现系统中实现的一系列靶点发现工具,可以对发表在《自然通讯》上的复杂基因和路径进行评分,并通过深度特征选择、因果推理和de novo路径重构得到相关靶点。靶点新颖性和疾病关联评分由自然语言处理(NLP)引擎进行评估,该引擎分析了来自数百万数据文件的数据,包括专利、研究出版物、科研经费和临床试验数据库。
其次,Chemistry42 是用于药物发现的生成式化学模块。该模块包括生成引擎和评分引擎的集成,可以使用我们于2015年率先应用于医疗的尖端深度学习技术从零开始想象分子。Chemistry42自动生成具有适当物理化学性质的成药性高的分子结构。此次,我们使用Chemistry42设计了一个小分子库,这些小分子与 PandaOmics 发现的新的细胞内靶点结合。
而 InClinico 则可以帮助去预测临床试验的结果,同时也能指导正确的临床实验方案。
据Insilico Medicine首席科学官任峰博士介绍,Insilico Medicine前期正在试图把这三个人工智能的系统统一起来一体化用于新药研发,利用人工智能系统从靶点发现到化合物设计,一直做到临床侯选化合物的开发。
我们的靶点X是Insilico Medicine通过人工智能系统发现的一个新的靶点,它针对多种纤维化都有作用,包括肺纤维化、肝纤维化、皮肤纤维化和肾纤维化。我们针对的是特发性肺纤维化,这样一个病人群体在亚洲有30多万人,在全球有70多万人,是一个比较庞大的病人群体。
Insilico Medicine今年主要是通过人工智能系统完成了两个主要的里程碑。第一个里程碑是通过人工智能发现了治疗具有广泛适应症的创新靶点,也就是我们针对肺纤维化的创新靶点。同时我们通过人工智能产生了全新的小分子化合物,并把这个化合物推到临床侯选化合物。我们的化合物通过了体外测试、体内测试,目前即将进入临床研究阶段,目标是今年年底把我们的临床候选化合物推向临床。
跟传统的药物研发过程相比,从早期的新靶点发现,一直到临床侯选化合物的确定,需要2.5年到4.5年的时间,需要合成几百个化合物,以及需要数千万美元的经费,而 Insilico Medicine 只用了18个月的时间合成了小于80个化合物,同时研发经费只有不到300万美元。
三、2014-2021:研发历程,实践是检验真理的唯一标准
"深度学习革命的巅峰时期可以追溯至2014年,那时候的深度学习系统开始在图像识别和生成式对抗网络领域超越人类。同一年,我们公司成立。2016年,我们通过实验验证证明,深度学习系统可以从组学数据中识别新的生物靶点。自2017年-2019年,我们一直不断在证明,生成式人工智能可以发明和设计能够作用于人类细胞和动物的新分子。"——Insilico Medicine首席执行官Alex Zhavoronkov
众所周知,人工智能的发展依赖于数据,尤其是高质量的大数据集。幸运的是,药物发现过程的每一步都会产生大量数据,这些数据为现代人工智能技术的发展奠定了基础。
这些人工智能技术的应用已经被证明在药物发现过程的几乎每一个步骤都是有帮助的一特别是在疾病假设和靶点识别阶段。深度学习模型和自然语言处理技术在建模大型复杂多维数据集如基因组学、蛋白质组学、临床数据、靶点结构数据和非结构化文本(研究论文、专利、科研经费等)方面的作用是不可小觑的。
应用虚拟筛选和新分子生成的人工智能平台已经证明深度神经网络作为苗头化合物的智能发现工具的能力。
2015年,Insilico Medicine开始生成式对抗网络(GAN)的早期探索性实验。GAN是一种深度学习架构,由两种神经网络构成,其中一个神经网络发明新的"物质"来满足一些预定义的需求(即生成器),而另一个神经网络则努力证明生成器是错的。这两种神经网络的任务都是学习,直到生成器最终获得最佳结果。GAN采用低维格式,例如二进制指纹、SMILES字符串、图形和其他光表示法来生成分子。
Insilico Medicine在论文"丰富的有意义的先导药物:深度对抗式自编码器在肿瘤学中新分子开发的应用"中描述了使用对抗式自编码器(AAE)生成新分子的概念,该论文于2016年6月提交至Oncotarget杂志发表。Alan Aspuru-Guzik团队在他们的ArXiv论文"利用数据驱动持续分子表示的自动化学设计"(Automatic chemical design)中发表了类似的想法。
后来,Insilico Medicine对基于GAN的人工智能药物设计平台进行了一些改进和设计新功能。2017年,Insilico Medicine建立了多个工作GAN模型,包括指纹druGAN、SMILES的ORGAN、各种带有强化学习和LSTM的循环神经网络(RNN)架构、敏捷时间卷积网络(ACTN)和强化对抗神经计算机(RANC)。
2018年,Insilico Medicine在构建和验证一个强大的深度生成模型"生成式张量强化学习" (GENTRL)方面取得了进展。GENTRL是一种用于药物发现的新型人工智能系统,它极大地加速了先导药物发现过程从数年缩短到数天,并在GitHub上公开了代码。
同年,Insilico Medicine发表了一项研究,公开了首个采用Entangled Conditional Autoencoder (ECAAE) 纠缠条件式自动编码器生成的JAK3抑制剂,并进行了实验验证。彼时,Insilico Medicine的引擎已经可以为G蛋白偶联受体和其他靶点类别实现合理的命中率。
2019年,Insilico Medicine实现了一个重要的概念验证里程碑,并在短短21天内预测了一个众所周知的纤维化疾病靶点分子,并成功地在体外和体内验证了预测。研究结果发表在《自然-生物技术》杂志上。
逐渐的,Insilico Medicine搭建了一个一体化的AI平台 Pharma.AI,并且通过实践验证了AI在医药研发领域的真正作用,从一个自动生成的假设中识别出一个全新的靶点和一个首创的候选药物分子。
Alex Zhavoronkov表示,“我们这一成功非常接近能够颠覆式的改革当期新药研发模式。我们希望我们这一成果能够充分说明问题,甚至可以把最顽固的怀疑论者转变为人工智能的推崇者。”
四、One More Thing:梦想是星辰大海,终极目标是延缓衰老
目前,人工智能技术被很多制药和生物技术公司广泛采用,用于虚拟筛选或数据分析等特定任务。尽管如此,新药研发的总体过程仍然是一系列连接不佳的各个阶段,没有一个整体有效的从错误中学习的反向传播元素。
通过将 PandaOmics 和 Chemistry42 等工具整合到一个集成的工作流程中,药物研发机构可以大大简化它们的工作,加速将想法转化为实际的临床候选方案,并进一步推进。
目前,Insilico Medicine优势在于早期的研发阶段优势。关于未来的规划,任峰博士表示,Insilico Medicine会继续寻找新的靶点,也会继续寻找新的化合物,发挥新的临床后化合物作用,未来也可能会拓展后期的临床试验,甚至打通上市和销售整个的产业链。
在创新工场董事长兼CEO李开复看来,“Insilico Medicine在AI技术平台的支持下,快速研发推进针对特发性肺纤维化病症的潜在的首创药物分子,并成功达到临床前候选药物的里程碑,一定程度上验证了 AI算法结合药物化学与生命科学,能够更高效的研发出有巨大潜力的候选药物分子。”
未来,Insilico Medicine希望这项研究成果将会激发制药机构更大的转变,成为一种新的药物发现模式。通过不断创新和完善AI技术,并将其扩展到其他疾病领域,发明更多新的候选药物并推向临床,去解决尚未被满足的临床需求。
最后,Alex Zhavoronkov的还有一个终极小目标,通过人工智能系统来延缓衰老。