摘要GydF4y2Ba
细胞色素P450酶负责75%上市药物>的代谢,因此确定单个细胞色素P450对新候选药物的总清除的贡献至关重要。过度依赖一种细胞色素P450清除导致药物-药物相互作用的高风险;考虑到多种人细胞色素P450酶具有多态性,也可能导致临床药代动力学高度可变。因此,在药物发现过程的早期阶段,了解新的化学实体与主要细胞色素P450酶相互作用的可能性将是有利的。使用人肝微粒体的典型筛选方法不能提供足够的信息来区分负责清除的特定细胞色素P450。在这方面,我们通过实验评估∼5000种化合物的代谢稳定性的三个最著名的人类细胞色素P450异型生物质的代谢,也就是说,CYP2C9, CYP2D6, CYP3A4和使用的数据集开发定量构效关系模型的预测high-clearance这些酶的底物。筛选库包括NCATS药物收藏,包括临床批准的低分子量化合物,和药物类化合物的注释库。为了识别抑制剂,对文库进行筛选,以荧光为基础的细胞色素P450抑制试验;通过对两种检测结果的交叉参照,我们能够区分这些酶的底物和抑制剂。最佳底物和抑制剂模型(平衡精度约为0.7)以及用于开发这些模型的数据已经公开(GydF4y2Bahttps://opendata.ncats.nih.gov/admeGydF4y2Ba)以促进所有研究小组的药物发现。GydF4y2Ba
重要性声明GydF4y2Ba在药物发现和开发中,具有任意细胞色素P450代谢谱的候选药物被认为是有利的,因为它们提供较少的细胞色素P450多态性和药物-药物相互作用潜在问题的风险。本研究针对三种主要的外生代谢细胞色素P450,即CYP2C9、CYP2D6和CYP3A4,建立了可靠的底物和抑制剂定量构效关系模型。在药物发现的早期使用这些模型将使项目团队能够在必要时制定战略或支点,从而加速药物发现研究。GydF4y2Ba
介绍GydF4y2Ba
细胞色素P450酶对小分子药物的肝脏生物转化仍然是代谢清除的主要途径,严重影响其生物利用度和全身暴露。对清除机制的深入分析很重要,因为它将有助于预测人体药代动力学,指示药物-药物相互作用(DDI)的概率,并确定由于种族、性别、年龄和遗传多态性引起的药代动力学变异的可能性(GydF4y2Ba罗登和乔治,2002年GydF4y2Ba;GydF4y2BaSansone Parsons等人,2007年GydF4y2Ba).在这方面,有必要确定单个细胞色素P450对化合物的总清除的贡献。当化合物有较高的部分被一种酶代谢,如CYP2C9GydF4y2BasGydF4y2Ba华法令阻凝剂(GydF4y2BaKaminsky和Zhang, 1997GydF4y2Ba),酶活性或表达的变异性可导致未预期的清除率低,或相反地,发生超快速代谢,这是CYP2D6基因变异的已知问题(GydF4y2Ba英格曼·桑德伯格,2005年GydF4y2Ba).一种酶的抑制剂会导致血液循环浓度的升高,以及毒性,这取决于该化合物的治疗指数,药物标签上会有黑框警告或从市场上撤出(GydF4y2BaLayton等人,2003年GydF4y2Ba;GydF4y2BaDi, 2017GydF4y2Ba).相反,当增加的表达和活性导致快速清除时,酶诱导会降低化合物的功效。为了解决这些问题,人们寻求在多种酶和清除机制中具有均匀分布的代谢谱的化合物(GydF4y2BaZientek和Youdim, 2015GydF4y2Ba).GydF4y2Ba
目前,在发现阶段初步评估化合物的人体代谢稳定性的标准是使用人肝微粒体(HLMs)进行体外清除试验,HLMs富含多种外源性代谢细胞色素P450,包括1A2、2C9、2C19、2D6和3A4等。然而,一种简单的HLM清除试验(监测一种化合物随时间的消耗)并不能识别负责代谢的细胞色素P450。另外,用单个酶对每个新的化学实体进行清除评估将是一种低效和昂贵的方法,因为药物化学家在探索化学空间以开发新疗法时产生大量化合物。GydF4y2Ba
国家转化科学推进中心(NCATS)的一个重点是创建和传播促进和加速转化研究的硅工具。为此,NCATS在国际药物开发创新和质量联盟的支持下,努力开发定量构效关系(QSAR)模型,能够预测特定的细胞色素P450酶(s),负责清除新的、未探索的化合物。尽管针对单个酶的预测QSAR模型可以在商业上获得,但这些模型被高度重视的成本可能很高,因此将这一资源限制在更广泛的科学界,包括小公司、学术研究机构和非营利的以病人为中心的组织。此外,商业模型通常使用小的训练数据集开发,数据通常来自文献,这可能会引入错误,因为不同实验室的方法具有不一致的专业知识和重点。另外,NCATS的稳健定量高通量筛选(qHTS)技术已经使标准化协议生成规模可观的数据库(GydF4y2BaVeith等人,2009年GydF4y2Ba;GydF4y2BaShah等人,2016年GydF4y2Ba),为提高预测QSAR模型的精度奠定了基础。GydF4y2Ba
在这里,我们报道了约5000个低分子量化合物的体外活性,与三种主要的细胞色素P450酶,即CYP2C9, CYP2D6和CYP3A4,可归结为约75%的细胞色素P450介导的临床药物代谢(GydF4y2BaGuengerich 2015GydF4y2Ba).我们重点研究了在发现阶段使用的两个主要细胞色素P450端点,即清除和抑制。清除分析通常用于评估化合物的代谢稳定性,依赖于完全的酶转换,这是一个典型的细胞色素P450氧化反应的9个步骤的过程(GydF4y2BaGuengerich 2018GydF4y2Ba).尽管信息丰富,从该分析获得的知识仅限于底物,因此需要进一步的研究来识别抑制剂。值得注意的是,依赖于探针转换的竞争性抑制试验,如P450- glo,单独无法区分底物和抑制剂,因为两种配体都可以通过各种细胞色素P450酶结合机制产生相似的读数(GydF4y2Ba图1 bGydF4y2Ba).通过交叉参考显示探针抑制的化合物和代谢的化合物,我们从数据集中确定了最可能的抑制剂。GydF4y2Ba
代谢清除和P450-Glo测定中最常见的反应方案。(A)清除试验将识别通过典型的米氏动力学(1)或多配体过程(2)进行的底物,但不能识别竞争性(3)或基于机制(4)的抑制剂。(B)将P450-Glo检测结果分类为底物或抑制剂的基本原理是基于两种检测方法的观察结果的交叉引用。一项试验将能够通过竞争底物口袋(i和ii,左)来阻断原荧光素探针,但也可能产生抑制多配体复合物(ii,中和右)。或者,测试品可能只是一个差配体(iii,左),形成非抑制多配体复合物(iii,右),或表现出不妨碍探针代谢的有效清除(iv)。我,抑制剂;P,产品;年代,衬底。GydF4y2Ba
机器学习方法成功应用于开发吸收、分布、代谢、消除和毒性(ADMET)特性的预测QSAR模型是公认的(Kearnes等人,预印本,DOI:GydF4y2Bahttps://arxiv.org/abs/1606.08793GydF4y2Ba;GydF4y2BaWenzel等人,2019年GydF4y2Ba),也是本文所述工作的动力。利用内部生成的数据集,我们开发了传统的QSAR模型,以及多任务模型,以预测细胞色素P450底物和抑制剂。最重要的是,具有最大平衡精度的训练数据集和模型已经发布(GydF4y2Bahttps://opendata.ncats.nih.gov/admeGydF4y2Ba)使所有研究小组受益并加速药物发现。GydF4y2Ba
材料和方法GydF4y2Ba
P450 Glo检测试剂盒从普罗梅加公司(威斯康星州麦迪逊)购买,用于检测CYP3A4(V9910)、CYP2C9(V9790)和CYP2D6(V9890)。NADPH再生溶液A(目录号451220)和B(目录号451200)、人类CYP3A4(456202)、CYP2C9(456288)和CYP2D6(456217)超小体从康宁生命科学公司(纽约康宁)购买。酮康唑、磺胺苯唑、奎尼丁和阿苯达唑从Sigma-Aldrich(密苏里州圣路易斯)购买。GydF4y2Ba
化合物库。GydF4y2Ba
用于本出版物的约5000种化合物库包括NCATS药物收藏(NPC) (GydF4y2Ba黄等人,2011年GydF4y2Ba)和带注释的NCATS库。NPC文库中包含了美国、加拿大、日本、欧洲药品监管当局批准临床使用的约2800种化合物。NCATS注释库由~ 2200种不同的类药物分子组成。该注释库主要由研究化合物组成,代表不同的目标类和疾病领域。该文库(约5000种化合物)今后将被称为NCATS-ADME文库。GydF4y2Ba
高通量代谢稳定性(清除)测定。GydF4y2Ba
使用已建立的中密度(384孔格式)方案,采用底物消耗试验确定代谢稳定性(GydF4y2BaShah等人,2016年GydF4y2Ba).该工作流程包括一个用于培养和样品清理的机器人系统,以及用于样品分析的自动超高效液相色谱-高分辨率质谱法。简单地说,每个110µl反应混合物由1µM试验品、超小体和NADPH再生系统组成,置于pH 7.4的100 mM磷酸盐缓冲液中。具体的蛋白质和酶浓度,以及使用的对照化合物,列于GydF4y2Ba表1GydF4y2Ba.37℃混合孵育,加入含内标物(IS)(即阿苯达唑)的冷乙腈,在0,5,10,15,30和60分钟淬火反应等量物。离心3000GydF4y2BaGGydF4y2Ba, 4°C, 20分钟,清除样品中的沉淀蛋白和碎片。在超高效液相色谱-高分辨率质谱仪中的样品分析,数据提取和半衰期(GydF4y2BaTGydF4y2Ba1/2GydF4y2Ba)如前所述进行测定(GydF4y2BaShah等人,2016年GydF4y2Ba).GydF4y2Ba
代谢稳定性测定中使用的酶浓度、辅助因子活性和对照品的总结GydF4y2Ba
根据观察结果,化合物被归为清除类GydF4y2BaTGydF4y2Ba1/2GydF4y2Ba标准中列出GydF4y2Ba表2GydF4y2Ba.定量下限(BLQ)以下、不确定(INC)和未发现(N/F)的数据被排除在进一步分析之外。在补充材料中提供了完整的数据集,并附有基板类的注释。GydF4y2Ba
清除数据的分类GydF4y2Ba
P450 Glo qHTS。GydF4y2Ba
P450- glo抑制试验是一种通过细胞色素P450探针底物释放荧光素来检测细胞色素P450活性的发光技术。P450-Glo测定使用先前描述的方法进行,只做了少许修改(GydF4y2BaVeith等人,2009年GydF4y2Ba).所有检测均通过在室温(RT)和37℃条件下培养阳性对照化合物进行优化。由于在RT和37℃下CYP2D6和CYP3A4的化合物活性没有发现差异,因此在RT下对这两种酶进行测定。Aurora Discovery, Carlsbad, CA),除了在CYP2C9的混合物中添加牛血清白蛋白(BSA)。CYP2C9的初始优化检测结果显示,信号背景比较低,井间变异较大。为改善信号,防止蛋白粘附在平板分配机管中,在CYP2C9酶测中加入0.4%的BSA。使用Wako Pintool工作站(Wako Automation, San Diego, CA)将溶解在DMSO中的每个阳性对照(第1-4列)和测试化合物(第5-48列)共23 nl转移到检测板上。实验中使用的阳性对照列于GydF4y2Ba表3GydF4y2Ba.转移对照/试验化合物后,检测板在RT下孵育10分钟,然后使用FRD添加2µl NADPH再生液。反应持续在RT或37℃孵育60分钟,然后加入4µl检测试剂经FRD淬灭。在室温下孵育20分钟后,使用ViewLux平板阅读器(PerkinElmer, Shelton, CT)测量和量化发光强度。数据以相对发光单位表示。GydF4y2Ba
P450-Glo试验中孵育条件和阳性对照的概述GydF4y2Ba
相对于对照,每个化合物的浓度-反应活性数据与四个参数Hill方程相匹配,以获得百分比活性和效价值。完整的P450-Glo qHTS数据集已保存到PubChem,检测id如下:1645841 (CYP3A4), 1645840 (CYP2D6),和1645842 (CYP2C9)。当抑制效果为>65%,效价<10 μ M时,化合物在P450-Glo屏幕上被归类为热门化合物。GydF4y2Ba
QSAR的训练集和测试集准备。GydF4y2Ba
对NCATS-ADME文库进行预处理,消除包含重复、无机化合物、非共价复合物和混合物的条目。此外,盐和含有有机金属的化合物被去除。化学结构然后标准化使用弗朗西斯阿特金森标准化工具。为了以稳健的方式估计统计性能,我们使用了5倍交叉验证程序。最终数据集(GydF4y2Ba表4GydF4y2Ba),然后分割5倍,同时保留初始活性/非活性比率(分层取样)。对于每个折叠,将数据集的五分之四作为训练集,其余五分之一作为测试集,进行折叠滑动。GydF4y2Ba
本研究中使用的底物和抑制剂数据集的总结GydF4y2Ba
通过消除过程解析底物和抑制剂。GydF4y2Ba
P450-Glo数据集中的hits与清除试验的底物分类进行交叉参考。根据分类标准,这些化合物被分为四类GydF4y2Ba表5GydF4y2Ba.GydF4y2Ba
底物和抑制剂的解析原理GydF4y2Ba
分子描述符计算。GydF4y2Ba
对每个数据集计算了以下几组描述符:GydF4y2Ba
五种物理化学性质的指纹组合,即分子量、基于原子的计算分配系数(Slog P)(GydF4y2Ba怀尔德曼和克里彭,1999年GydF4y2Ba)、拓扑极性表面积(TPSA)、h -键供体数量和h -键受体数量,为预测细胞色素p450介导的性质提供了优越的性能(GydF4y2BaZakharov等人,2019aGydF4y2Ba).因此,我们使用了Avalon指纹(1024位)和Morgan指纹[使用RDKit计算(Landrum;GydF4y2Bahttp://www.rdkit.orgGydF4y2Ba)]结合上述五种理化性质。GydF4y2Ba
龙描述符:龙包为我们提供了3840个描述符(GydF4y2Bahttps://chm.kode-solutions.net/products_dragon.phpGydF4y2Ba).常数值描述符(始终为0)和低方差(<0.4)的描述符被删除。在最后的建模练习中,我们使用了1164个描述符。GydF4y2Ba
机器学习方法——随机森林分层Bagging和多任务深度神经网络。GydF4y2Ba
使用随机林(带有默认参数)作为基本分类器(GydF4y2Ba布雷曼,2001年GydF4y2Ba).树的数量被任意设置为100(默认),因为已经证明最优的树数量通常在64到128之间,增加树的数量并不一定提高模型的性能(GydF4y2BaOshiro等人,2012GydF4y2Ba)使用欠采样分层装袋(SB)克服了数据不平衡的问题(GydF4y2Ba他和加西亚,2009年GydF4y2Ba;GydF4y2BaTetko等人,2013年GydF4y2Ba),这已被证明是处理不平衡数据集的最佳方法之一(GydF4y2BaTetko等人,2013年GydF4y2Ba;GydF4y2BaJain等人,2018年GydF4y2Ba).SB是一种机器学习技术,它基于从原始训练集中采样的多个训练数据集开发的模型集合。该技术利用少数类样本,利用传统的bagging方法(带替换重采样)建立正样本的训练集,然后从多数类中随机抽取相同数量的样本。因此,总的套袋训练集大小是少数民族班的两倍。然后计算和平均几个模型,以产生最终的集成模型(GydF4y2BaTetko等人,2013年GydF4y2Ba).由于采用随机抽样,每次试验中约有37%的化合物被排除在外,形成了一套“现成的”组合,用于测试最终模型的性能(GydF4y2BaTetko等人,2013年GydF4y2Ba)。尽管每次都会选择一小部分样本,但鉴于数据集是随机生成的,大多数化合物对整个装袋过程都有贡献。此外,一项由GydF4y2BaTetko等人,(2013年)GydF4y2Ba显示每个集合中有更多的模型(例如128、256、512和1024)没有显著提高模型的平衡精度。因此,在本研究中,我们每个集合总共构建了64个模型。所有使用随机森林和分层套袋的模型都是使用数据分析平台KNIME开发和部署的(GydF4y2BaBerthold等人,2008年GydF4y2Ba).GydF4y2Ba
对多任务深度神经网络(DNN)方法在我们的数据集上的性能也进行了评价。DNN已获得声誉,并已广泛应用于不同的科学技术领域(GydF4y2BaKorotcov等人,2017年GydF4y2Ba;GydF4y2BaZakharov等人,2019bGydF4y2Ba).DNN是人工神经网络的一种变体,由几个连续的隐藏层组成。每个层由线性向量变换Wx+b(其中W是可调权重矩阵,b是偏差向量)表示,然后是非线性变换函数,即sigmoid。在本研究中,多任务DNN模型(MT-DNN v1)使用Tensorflow后端在Keras中实现的多层前馈神经网络开发。使用Adam算法最小化损失函数。本研究中开发的所有模型均通过5倍交叉验证进行评估(GydF4y2BaTropsha 2010GydF4y2Ba).GydF4y2Ba
模型性能评估。GydF4y2Ba
根据敏感性评估每个分类模型的性能(GydF4y2Ba等式1GydF4y2Ba)、特异性(GydF4y2Ba等式2GydF4y2Ba),准确度(GydF4y2Ba等式3GydF4y2Ba)、平衡精度(BACC;GydF4y2Ba等式4GydF4y2Ba)、Matthews相关系数(MCC;GydF4y2Ba等式5GydF4y2Ba).对于高度不平衡的数据集,准确性可能会产生误导,这使得BACC和MCC更适合用于比较不同的分类器,因为它们具有处理倾斜数据集的能力。GydF4y2Ba
在上述方程中,TP为真阳性,TN为真阴性,FP为假阳性,FN为假阴性。GydF4y2Ba
结果GydF4y2Ba
清除试验的数据整理。GydF4y2Ba
使用简化分子输入线输入系统和LyChI(NCATS;GydF4y2Bahttps://github.com/ncats/lychi/GydF4y2Ba)符号格式。在化合物批审查中,发现一小部分(约3%)具有不一致的结构注释,这导致当以简化的分子输入行输入系统或LyChI为中心时,3个细胞色素P450酶数据集之间存在缺失数据。大多数错误注释是通过供应商提供的信息引入的,这很难在购买或接收时发现,考虑到本研究中的大部分化合物是在大型商业化合物库中采购的。与供应商验证结构信息,并相应地更新库注释。GydF4y2Ba
在清除试验中筛选出的约5000种化合物中,80%是可用的GydF4y2BaTGydF4y2Ba1/2GydF4y2Ba在每个细胞色素P450数据集中,排除BLQ, INC和N/F标记的化合物。本研究产生的不可靠数据(20%不可用数据)是典型的高通量质谱分析,这些数据受到不稳定移液错误的困扰,这些错误在384孔格式的培养液处理程序中常见,而且由于低效的电离或未监测的加合物形成,质谱信号很弱。GydF4y2Ba
高通量清除试验中确定的细胞色素P450底物。GydF4y2Ba
正如预期的那样,最高数量的底物(GydF4y2BaTGydF4y2Ba1/2GydF4y2BaCYP3A4(45%),其次是CYP2D6(33%)和CYP2C9 (27%) (GydF4y2Ba表6GydF4y2Ba).总的来说,三种酶之间只有11%的底物重叠。GydF4y2Ba
三种细胞色素P450酶高清除化合物的百分比GydF4y2Ba
高清除率和低清除率化合物的物理化学分布。GydF4y2Ba
化合物的分子性质,如Slog P、TPSA和分子量,使用内部化合物数据集注释工具NCATS Find(NCATS)进行计算。对于所有三种酶,大部分底物(GydF4y2BaTGydF4y2Ba1/2GydF4y2Ba< 30分钟)在250-550 mol. wt范围内,Slog P值在2 - 6之间,TPSA值小于100,0-2个氢键供体(数据未显示),1-8个氢键受体(数据未显示)。与CYP2C9和CYP3A4相比,CYP2D6底物的理化性质分布无明显差异,相对于CYP2C9和CYP3A4底物,CYP2D6底物的相对分子质量更低,TPSA也更低(GydF4y2Ba图2GydF4y2Ba)。此外,计算出的GydF4y2BaTGydF4y2Ba1/2GydF4y2Ba数值和上述分子描述符不明显。此外,我们没有发现CYP2C9(酸类)和CYP2D6(碱性胺类)已确定的带电偏好(GydF4y2BaKerns和Di,2008年GydF4y2Ba)来区分我们的数据集中的物理化学特征(数据未显示)。GydF4y2Ba
与底物相比,整个数据集的性质分布包括(A)分子量,(B)TPSA和(C)Slog P(GydF4y2BaTGydF4y2Ba1/2GydF4y2BaCYP3A4、CYP2C9和CYP2D6的超体清除试验。GydF4y2Ba
细胞色素P450抑制剂和激活剂在qHTS检测中鉴定。GydF4y2Ba
P450 Glo命中率最高的是CYP3A4屏幕(29%),其次是CYP2C9(23%)和CYP2D6(19%)(GydF4y2Ba表7GydF4y2Ba).与清除试验相比,三种酶之间仅发现5%的重叠。应该注意的是,在本试验中,抑制剂和底物都通过阻断底物袋中的探针来降低发光信号,因此P450 Glo hit可能不是真正意义上的细胞色素P450抑制剂。GydF4y2Ba
P450-Glo穿过三种酶的百分比GydF4y2Ba
本研究中用于开发预测QSAR模型的P450- glo hits排除了增加探针底物细胞色素P450代谢的化合物,通过升高的发光读数观察到。如我们目前所知,CYP3A4显示了最多的增加荧光素产生的分子(118)。值得注意的是,在37种刺激CYP2C9代谢的化合物中,有两种分子对CYP3A4不加区别,即前scillaridin和造血前列腺素D合酶抑制剂-1(尽管活性浓度不同,但半最大值)。虽然CYP2C9的半最大浓度范围为0.025 ~ ~ 45µM,与CYP3A4的半最大浓度范围为0.001 ~ 39µM具有可对比性,但仅有的两个增加CYP2D6活性的分子都具有~ 30µM的效力。此外,只有CYP2D6和CYP3A4有一个单独的、探针代谢增加的化合物,也表现出高清除率:tenatoprazole(一种假定的质子泵抑制剂)和SCHEMBL17791590(一种醛脱氢酶抑制剂)。然而,对于活化剂的预测QSAR模型是不可行的,因为需要更大的活化剂化合物数据集来支持模型;活性化合物的完整清单已在补充材料中提供。GydF4y2Ba
通过消除过程解析底物和抑制剂。GydF4y2Ba
虽然单独的P450 Glo分析不能区分抑制剂和底物,但当与清除试验分层时,解析可能的抑制剂和底物是可行的。P450 Glo分析中确定的假定抑制剂数量显著减少(CYP3A4、2C9和2D6分别为77%、32%和66%).中的维恩图GydF4y2Ba图3、A和BGydF4y2Ba显示底物和抑制剂的重叠,突出这三种酶广泛的底物/抑制剂识别能力。CYP3A4代谢外源性物质的倾向是明显的,底物的数量是抑制剂的3倍。虽然CYP2D6也表现出更高的代谢化合物的倾向,但在底物与抑制剂的比值为~ 2时,CYP2C9明显更容易受到抑制,相应的比值为~ 0.5。尽管如此,与已解析的抑制剂相比,这些酶作为外生代谢产物的注释是通过观察底物之间显著较高的计数和重叠来验证的。GydF4y2Ba

底物(A)和抑制剂(B)在三种酶之间重叠。(C) CYP2C9化学空间图示例。GydF4y2Ba
图3 cGydF4y2Ba显示基于视觉聚类的所有CYP2C9数据的化学空间图示例(optimbrium;GydF4y2Bawww.optibrium.com/stardropGydF4y2Ba).我们发现化合物分布广泛,这表明我们的数据集是多样化的。GydF4y2Ba
值得注意的是,这种方法忽略了基于额外配体存在而具有不同酶机制的化合物,通过这种方法,单独结合可导致分子氧化,但在探针存在时可导致纯抑制性酶-配体复合物(GydF4y2Ba图1GydF4y2Ba,方案Bi, Bii中,Bii右,可以适用于同一化合物)。根据使用的基本原理,参考文献中的化合物不能与第1类化合物区分开来(GydF4y2Ba表5GydF4y2Ba),并为此目的,鉴于它们属于高清除阈值,研究将继续属于这一类。酮康唑是这种情况的一个主要例子,因为它是一个很好的底物,同时也被认为是细胞色素P450催化活性的有效抑制剂(GydF4y2Baboulc et al., 2016GydF4y2Ba;GydF4y2Bahttps://www.accessdata.fda.gov/drugsatfda_docs/label/2014/018533s041lbl.pdfGydF4y2Ba, 2020).我们回顾了一些1类化合物的文献,发现一些历史化合物可以用该数据集进行进一步注释,例如将三苯胺指定为CYP2D6的底物。尽管第一代抗组胺被酶清除并不令人惊讶,但已报道的古代化合物是有限的吗(GydF4y2BaChaudhuri等人,1976年GydF4y2Ba;GydF4y2Ba是的,1991GydF4y2Ba),在药物相互作用弗洛克哈特表中仅被归类为CYP2D6抑制剂(GydF4y2Bahttps://drug-interactions.medicine.iu.edu/MainTable.aspxGydF4y2Ba),说明了常见旧化合物缺少底物/抑制剂注释的存在。GydF4y2Ba
预测模型:SB和MT-DNN。GydF4y2Ba
一旦数据分析和管理完成,我们就将注意力集中在构建分类模型上,该模型可以使用机器学习方法有效地区分活跃者和非活跃者。为此,使用不同的描述符组合在所有数据集上训练了一组分类器。为了避免可能发生的偏倚,所有的模型在一个5倍的外部交叉验证方案进行评估。考虑到5倍的平均预测性能,所有6个数据集(3个底物+ 3个抑制剂)的模型显示BACC值接近或高于70%。对于CYP3A4底物数据集,带有dragon描述符的dnn模型表现最好(BACC = 76%;MCC = 0.51),其次为结合Morgan指纹和5种理化性质的SB (BACC = 75%;MCC = 0.49),该方法被发现是其余5个数据集表现最好的方法。在不同的描述符组合和/或机器学习方法之间取得共识并没有提高模型的性能(数据未显示)。考虑到两种方法的BACC和MCC值没有显著差异(GydF4y2Ba图4GydF4y2Ba;GydF4y2Ba表8GydF4y2Ba),具有Morgan指纹和五种物理化学性质的SB被选为所有数据集的默认模型,因为其可访问性(即开源)。GydF4y2Ba补充表1GydF4y2Ba报告本研究中使用的所有数据集的预测性能度量。GydF4y2Ba

来自具有Morgan指纹的SB的5倍交叉验证结果:(A)AUC和(B)BACC。GydF4y2Ba
交叉验证结果总结GydF4y2Ba
适用性评估领域。GydF4y2Ba
QSAR模型的适用性域(AD)定义了其结构域和响应空间的限制。换句话说,模型验证的原则限制了模型的适用性,使其无法可靠地预测在结构上与构建模型时使用的训练化合物相似的测试化合物。历史上,已经提出了几种方法来计算QSAR模型的适用性(GydF4y2BaSushko等人,2010年GydF4y2Ba;GydF4y2BaSahigara等人,2013年GydF4y2Ba;GydF4y2Ba云等人,2017GydF4y2Ba;GydF4y2Ba帕特尔等人,2018年GydF4y2Ba)在本研究中,为了估计模型的AD,使用Morgan指纹评估测试集化合物与其训练集中最近邻化合物之间的Tanimoto相似性。对所有六个数据集分别进行计算。对于每个数据集中的每个折叠,我们筛选出低于某个相似性阈值的化合物,并进一步计算BACC和预测覆盖率,作为属于模型AD的化合物百分比。测试集的BACC分布和相应覆盖值(平均5倍)与AD截止值的比较如所示GydF4y2Ba图5GydF4y2Ba以CYP2C9底物数据集为例。数据显示AD与预测精度之间呈正相关趋势,其中AD阈值随模型预测精度的增大而增大。预测的覆盖率与AD呈负相关,表现为随着AD值的增加,覆盖率急剧下降。GydF4y2Ba

以CYP2C9底物数据集为例,在AD截止值和覆盖值上测试集的预测结果分布。GydF4y2Ba
CYP2C9底物的最佳预测结果是AD等于0.8,导致BACC为0.79,尽管覆盖值非常低,为∼1%。AD截止值为0.7时的覆盖率并没有显著提高。AD截止值为0.6时,预测精度和覆盖率的最佳比率都达到了。所有其他数据集都获得了类似的结果(GydF4y2Ba补充表2GydF4y2Ba).考虑到预测精度与AD值之间的明显趋势,这种方法可以用来建立预测的置信度。GydF4y2Ba
预测/分类概率的不确定性分析。GydF4y2Ba
除类别外,分类方法还提供类别概率的输出,数值介于0和1之间,对应于化合物被激活的概率。类别概率是预测可靠性的估计,被称为预测的不确定性。接近1的值表示活性e化合物,而接近0的值表示无活性化合物。类别概率分析表明,大多数错误分类在0.5到0.6的类别概率范围内。在CYP2C9底物数据集的情况下,模型在0–0.4到0.7的类别概率范围内正确预测了80%以上的化合物–1 (GydF4y2Ba图6GydF4y2Ba)。六个预测模型均观察到相同的趋势(GydF4y2Ba补充表3GydF4y2Ba),当排除0.5–0.6级概率范围时,增强了模型预测的置信度。GydF4y2Ba

底物和抑制剂在类别概率预测值上的分布。GydF4y2Ba
与参考工具/模型的比较。GydF4y2Ba
模型完成后,寻求外部验证测试集以确定它们的效用,这是一个具有挑战性的努力,考虑到单个酶的清除和抑制数据是有限的和分散的文献。此外,我们还将我们的模型性能与文献中存在的其他开源模型进行了比较。尽管一些开源网站提供了细胞色素p450特异性的底物和抑制剂模型,但大多数都是使用文献中的化合物开发的,也就是说,基本上是NPC的一个子集。由于我们的模型是在整个NPC数据集上开发的,所以我们放弃了比较模型性能指标的努力。GydF4y2Ba
然后重点转移到与商业模型的比较。Simulations Plus的ADMET Predictor是ADMET预测的领先软件包之一,经常在NCAT使用。该软件包括九种细胞色素P450酶的底物和抑制剂分类模型,使用从Biovia代谢物数据库获得的数据用于构建CYP2C9、CYP2D6和CYP3A4底物模型的化合物总数从1400到1600不等,而抑制模型是使用∼700种化合物。为了与ADMET预测器进行比较,我们在此开发的模型仅使用NPC文库进行了再培训。由于具有摩根指纹和五种理化性质的SB与其他技术相比表现出优越的性能,我们使用这种组合在NPC文库上开发了预测模型。这些模型然后用于预测NCATS注释库,并将模型性能与ADMET Predictor的预测进行比较GydF4y2Ba补充表4GydF4y2Ba.所示GydF4y2Ba图7GydF4y2Ba该模型在BACC和MCC方面均优于ADMET Predictor模型。GydF4y2Ba

NCAT注释库上模型性能的比较。GydF4y2Ba
为了确定我们的模型的稳健性,我们在NCATS注释库中识别了单例,并比较了这些化合物的预测结果/模型统计数据。我们在NCATS注释库中发现了615个单例,我们的模型再次优于ADMET Predictor (GydF4y2Ba补充表4GydF4y2Ba)。尽管与ADMET Predictor相比,我们的模型在该测试集上表现出优越的性能,但必须注意的是,ADMET Predictor中的模型使用的数据可能不是在与本研究中使用的数据相同或相似的分析中生成的。因此,这些结果仅用于比较评估,必须谨慎推断。GydF4y2Ba
讨论GydF4y2Ba
HLMs是研究I期/细胞色素p450介导代谢的金标准。文献中存在大量的HLM数据,有几个小组使用这些数据发布了QSAR模型(GydF4y2Ba李等人,2007年GydF4y2Ba;GydF4y2BaSakiyama等人,2008年GydF4y2Ba;GydF4y2Ba胡等人,2010年GydF4y2Ba;GydF4y2BaZakharov等人,2012年GydF4y2Ba;GydF4y2BaLiu et al., 2015GydF4y2Ba).大多数已建立的、受尊重的模型和(重要的)源数据集都是专有的,这限制了它们的公共可访问性。尽管存在几种HLM清除模型,但单个细胞色素P450的QSAR知识仍然有限。NCATS和IQ联盟的成员共同努力,开始了发布清除值数据库的任务,这不仅有助于推进药物设计工作,而且还提供了对主要细胞色素P450酶的结构-活性关系的更好的理解。科学界从这一努力中获得的好处包括1)通过引导结构修改提高先导优化,2)通过高通量和计算筛选改进命中选择,3)为单个代谢酶建立高级计算人体代谢模型。GydF4y2Ba
这是对单个细胞色素P450酶进行筛选的最大的化合物库。值得注意的是,该数据库包括了大多数临床研究和监管机构批准的药物,使其成为最公开、最全面的临床使用小分子的CYP2C9、2D6和3A4底物和抑制剂列表,其建立在单一来源的经验数据上。细胞色素P450酶的复杂动力学创造了大量的酶配体场景,这可能使底物或抑制剂的指定模糊。根据细胞色素p450介导反应的非线性动力学观察,GydF4y2BaKorzekwa等人(1998年)GydF4y2Ba提供了酶同时结合多种配体的一些初步证据。细胞色素P450协同性和变构相互作用的问题已被广泛地综述(GydF4y2BaDavydov和Halpert,2008年GydF4y2Ba;GydF4y2Ba杰尼索夫等人,2009年GydF4y2Ba)然而,仍然有必要根据经验评估细胞色素P450–配体结合,因为预测模型并不适用于所有可能性。重要的是,考虑到充分描述结合模式需要大量的额外研究,因此,这项工作产生的数据集和模型不能超出底物和抑制剂的简单分类分配(GydF4y2BaGuengerich等人,2019年GydF4y2Ba),用典型的P450吸收带的位移更合适地进行光谱评价。此外,细胞色素P450抑制模型被多配体相互作用复杂化,不同的探针底物可能导致不同的结构-活性关系。尽管如此,我们认为本文报道的数据集和模型具有广泛的适用性,因为它们是使用P450-Glo系统开发的,而P450-Glo系统是药物发现筛选范式中常用的分析方法。GydF4y2Ba
从这些研究中开发的预测性机器学习模型通过使用可靠的数据而得到加强,这些数据不受分析和实验室间可变性的影响,这是大多数商业和开源模型的固有缺陷,通过从汇编文献中获取数据而引入。我们采用SB和多任务深度学习g模型将化合物分类为三种主要外源代谢酶(CYP3A4、CYP2C9和CYP2D6)的底物或抑制剂。尽管我们研究中的数据集不平衡,尤其是抑制剂数据集,但我们能够实现70%左右的分类准确率(BACC)(GydF4y2Ba图4GydF4y2Ba;GydF4y2Ba补充表1GydF4y2Ba).通过与广泛使用的商业软件ADMET Predictor的比较,证明了我们的模型的价值和数据的质量。自2012年以来,NCATS的化学家已经为250多个药物发现项目合成了>2万种化合物,这些项目涵盖了广泛的疾病领域、药理学靶点和细胞途径。在这组数据集(GydF4y2BaSiramshetty等人,2020年GydF4y2Ba)以及我们的NCATS-ADME 5K库。因此,我们的模型可以在化合物设计阶段以及合成后用作筛选机制,对用于药物发现中的表型分析和细胞色素P450抑制分析的有序化合物进行排序。GydF4y2Ba
聚类是一种强大的方法,它允许将“相似”化合物分组,以区分不同化合物数据集中的化学系列,分析SAR,并识别可能产生良好性质的化学“区域”。对我们的数据集进行人工检查,发现了巨大的结构差异。为了量化和定性地描述这种结构多样性,我们进行了1)基于Morgan指纹的聚类分析(KNIME)和2)基于最大公共子结构的聚类分析(StarDrop)。从包含三种酶的底物数据的3584种化合物中,利用摩根指纹鉴定了1829种不同的簇。其中1067个为单基因簇,只有24个簇包含≥10个化合物。最密集的簇包含30种化合物。基于最大公共子结构算法的聚类,如StarDrop(相似度阈值= 0.70),数据集的结构多样性也很高,产生2059个单例,最大聚类大小为33个化合物。此外,使用Murcko (Bemis和Murcko, 1996)支架算法在上述3584个化合物数据集中识别出2617种不同的Murcko支架。Murcko分析得出支架与化合物的平均比率为0.73,再次表明我们的数据集具有很大的结构多样性。分析显示最常见的支架出现在GydF4y2Ba图8GydF4y2Ba.苯支架的患病率非常低(约6%的数据集),其他支架的患病率均未达到0.5%以上。GydF4y2Ba

图中显示了在我们的数据集中使用频率最高的bemismurcko支架及其使用频率的相对百分比。GydF4y2Ba
鉴于CYP450酶在清除小分子疗法中发挥的核心作用,在药物发现和开发过程的临床前阶段,对催化新化学实体代谢的特定细胞色素P450酶的评估是至关重要的。20多年来,卫生当局提供了关于细胞色素P450的体外药物相互作用特征的指导,以及涉及人类处理外源性药物的其他酶(GydF4y2Ba黄等人,2008年GydF4y2Ba;GydF4y2BaPrueksaritanont et al., 2013GydF4y2Ba).重点是降低新分子通过底物和抑制剂与细胞色素P450酶的相互作用,在临床中充当DDI“作恶者”的风险。然而,DDI评估通常是在概念合成后很长一段时间内进行的,现在已确定为一种发育分子。虽然本报告中提供的模型不足以取代预测临床DDI所需的研究,但细胞色素P450底物和抑制剂的预测可以在发现阶段的早期充分利用,以便对化合物进行排序或选择以进行实验验证。GydF4y2Ba
细胞色素P450多态性的第一个例子是GydF4y2BaEichelbaum等人(1975)GydF4y2Ba他的研究表明,sparteine的n -氧化受高度个体间变异的影响。从那时起,几乎所有的药物代谢细胞色素P450酶都是多态的。约翰逊和GydF4y2Ba英格曼·桑德伯格(2011)GydF4y2Ba综述了与药物毒性相关的最重要的细胞色素P450等位基因以及最常受这些多态性影响的药物类别。药代动力学的多态变异性驱动药效学,可导致毒性或无效,这两种结果都对患者有害。在早期药物发现中使用我们的模型,可以标记严重依赖于这三种酶之一的化合物/系列,以及那些对这些酶具有抑制潜力的化合物,促使药物化学家生产化合物,以避免潜在的未来发展问题。在药物发现过程的早期应用这种水平的详细信息将是无价的。GydF4y2Ba
总而言之,我们报道了首次系统性的尝试,拟合并生成一个具有此范围和大小的主要CYP450酶的底物和抑制剂数据库。这项NCATS和IQ联盟之间的合作成果产生了几个有用的工具,包括1)代谢稳定性筛选的高通量自动化培养方法;2)两种不同质谱系统的自动数据采集方法;3)自动分配方法GydF4y2BaTGydF4y2Ba1/2GydF4y2Ba通过Validator软件[代码公开可用(GydF4y2BaShah等人,2016年GydF4y2Ba));4)三种主要细胞色素P450酶的大型、公开可用的数据集(>4000个化合物);5)细胞色素P450底物和抑制剂的稳健预测模型(GydF4y2Bahttps://opendata.ncats.nih.gov/admeGydF4y2Ba).我们期待从这次冒险中获得的知识和开发的工具将加速学术界、小型生物技术和制药公司的药物转化研究。GydF4y2Ba
致谢GydF4y2Ba
作者要感谢化合物管理,特别是Paul Shinn和Misha Itkin的支持。作者还要感谢Jorge Neyra在实施QSAR模型方面的帮助。作者还要感谢IQ联盟的所有工作组成员,特别是Fabio Broccatelli博士和Susa博士安妮·维尼瓦特、普拉尚特·德赛博士和马修·塞尔尼博士,感谢他们的宝贵见解。GydF4y2Ba
作者贡献GydF4y2Ba
参与研究设计:GydF4y2Ba冈萨雷斯、沙阿、托里莫托·卡托里、扎哈罗夫、恩圭ễn、 Obach,Hop,Xu。GydF4y2Ba
进行的实验:GydF4y2BaGonzalez, Shah, Torimoto-Katori, Sakamuru。GydF4y2Ba
提供新的试剂或分析工具:GydF4y2Ba夏,徐。GydF4y2Ba
执行数据分析:GydF4y2Ba冈萨雷斯,贾因,沙阿,扎哈罗夫,黄。GydF4y2Ba
手稿的写的或对手稿的写作有贡献的:GydF4y2Ba冈萨雷斯、耆那教、沙阿、托里莫托·卡托里、扎哈罗夫、恩圭ễn、 坂村,黄,夏,奥巴赫,霍普,西蒙诺夫,徐。GydF4y2Ba
脚注GydF4y2Ba
- 收到了GydF4y2Ba2020年11月24日。GydF4y2Ba
- 认可的GydF4y2Ba2021年6月17日。GydF4y2Ba
↵GydF4y2Ba1.GydF4y2Ba例如,s.j.和P.S.对这项工作做出了同样的贡献。GydF4y2Ba
这项研究得到了美国国立卫生研究院(National Institutes of Health)[National Center for Advanced Translational Sciences]的校内研究项目的支持。GydF4y2Ba
作者声明没有利益冲突。GydF4y2Ba
https://dx.doi.org/10.1124/dmd.120.000320GydF4y2Ba.GydF4y2Ba
缩写GydF4y2Ba
- 公元GydF4y2Ba
- 应用领域GydF4y2Ba
- 阿德梅特GydF4y2Ba
- 吸收、分布、代谢、消除和毒性GydF4y2Ba
- BACCGydF4y2Ba
- 平衡精度GydF4y2Ba
- BLQGydF4y2Ba
- 低于定量限GydF4y2Ba
- 牛血清白蛋白GydF4y2Ba
- 牛血清白蛋白GydF4y2Ba
- DNNGydF4y2Ba
- 深层神经网络GydF4y2Ba
- 联邦德国GydF4y2Ba
- 飞行试剂分配器GydF4y2Ba
- HLMGydF4y2Ba
- 人类的肝脏微粒体GydF4y2Ba
- 公司GydF4y2Ba
- 不确定的GydF4y2Ba
- 是GydF4y2Ba
- 内标GydF4y2Ba
- MCCGydF4y2Ba
- 马修斯相关系数GydF4y2Ba
- NCATGydF4y2Ba
- 国家转化科学推进中心GydF4y2Ba
- N / FGydF4y2Ba
- 没有找到GydF4y2Ba
- 全国人大GydF4y2Ba
- NCATS制药集合GydF4y2Ba
- qHTSGydF4y2Ba
- 定量高通量筛选GydF4y2Ba
- 定量构效关系GydF4y2Ba
- 定量构效关系GydF4y2Ba
- RTGydF4y2Ba
- 室温GydF4y2Ba
- 某人GydF4y2Ba
- 分层套袋GydF4y2Ba
- TGydF4y2Ba 1/2GydF4y2Ba
- 半衰期GydF4y2Ba
- TPSAGydF4y2Ba
- 拓扑极表面积GydF4y2Ba
- 美国政府工作不受美国版权保护GydF4y2Ba
工具书类GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba
- ↵GydF4y2Ba