主要

在个体药物反应模式与复杂的疾病,如2型糖尿病(T2D),是复杂的。涉及多个器官和混杂因素通常包括并发症和复方用药1,2。相反,一个或更多的药物和治疗相关的复方用药效果可以有相当大的影响分子的个体;然而,这样的变化在很大程度上仍是未知的3。日益普及的表现型和multi-omics筛查已被证明是有益的T2D的描述和其他疾病4,5,6,7,并提供机会获得机械的见解在药物对疾病过程的作用。

队列研究是非常有用的为研究药物和分子表型之间的关联,并可用于定制设计的随机对照研究来评估直接的因果关系8。常见的队列数据运用单变量统计方法分析方法、线性和逻辑回归,降维和聚类分析。然而,当扩大multi-omics数据这种分析不是简单和传统方法的数据解释不足以利用多模的全部范围的数据。

这里我们研究垂直数据集成,在多个组学数据集生成相同的样本。必须克服的挑战包括集成的数据跨多个连续的和离散的数据模式,有效地处理缺失数据,甚至大失踪的部分特定的数据类型,不同的维度,modality-specific噪音,如何提取数据之间的关联模式9,10,11。有几个垂直整合策略的综合数据集,如element-wise添加一个数据集,学习为每个数据集在融合之前,个人陈述或多维融合表现在哪里从输入数据9,12,13,14。例子是multi-omics因子分析(外交部)iCluster,和数据集成分析生物标志物发现使用潜在的组件(暗黑破坏神)mixOmics中实现,也可以集成多个模式11,14,15,16。然而,这些方法主要集中在发现因素或潜在变量可用于可视化、集群、疾病或预测。

我们之前已经开发出了一个深度学习框架的基础上变分autoencoders (VAE)17,18大量的非结构化集成和装箱的宏基因组数据19。具体地说,一个VAE基于深层神经网络和学习将高维数据转换成一个低维空间,称为潜在的表示。在这个过程的两个网络VAE学习输入数据的结构和输入变量之间的关联。在我们之前的研究中,我们发现VAE可以学会整合两个数据集没有任何先验知识或统计模型19。同样,别人显示va的能力作为综合模型中提取底层信号数据的改善集群和预测12,20.,21,22,23,以及处理缺失数据的比例大24。因此,我们推测,这样一个模型可以用来整合更深cohort-level multi-omics数据集。先前的研究主要集中在患者使用底层潜伏表示22,25,26我们也感兴趣的是我们是否能够获得洞察的复杂的关系网络学习通过数据集成。

为此,我们利用解码器VAE的生成模型。因此,最后一个训练有素的译码器能够生成新的学习潜在的数据分布的例子。这一原则的基础上,各种各样的生成模型已经被用来生成新数据的例子,如单细胞RNA数据和人工人类染色体27,28。此外,当结合贝叶斯决策理论被用于单细胞RNA分析数据的基础上变分推理29日,30.,31日。生成模型也允许调查的影响,一个虚拟的扰动输入数据对生成的例子。例如,杨等人训练一个单细胞RNA时序数据,然后生成模型摄动输入数据来确定扰动的影响在模型生成的输出32。同样,最近的一项研究使用了VAE蛋白质进化训练数据的生成模型来预测基因变异的影响人类健康的蛋白质33。对于我们的综合数据,我们假设VAE的生殖能力允许我们确定关系,例如,病人接触和组学特征。

因此,我们开发了一个框架,该框架是基于va,我们应用于一群789人的新诊断T2D广泛multi-omics表征。这些模式包括基因组学、转录组、蛋白质组学、代谢组学、药物和微生物以及数据,饮食问卷调查,临床测量。我们的方法能够集成multi-omics数据与临床和分类数据,并对系统偏差的数据以及大量缺失的数据。使用生成的合奏VAE模型,扰动特性,单变量统计方法,贝叶斯决策理论我们识别跨组学协会。我们比较了药物multi-omics概要文件和显示不同的药物与独特的临床和分子概要文件相关联。我们的方法,multi-omics变分autoencoders(移动)是免费的,很容易扩展,可以将任意数量的分类和连续的数据集,并且能够识别特性multi-omics关联。

结果

设计一个VAE multi-omics数据集成

我们使用一个数据集789年新诊断T2D患者广泛multi-omics描述(补充表1)。数据包括8807每个体变量与中位数missingness不到5%的组学数据集内除了宏基因组数据,三分之二的人(532)没有任何数据(补充数据1和补充图。1)。因此,这些人有24.7% missingness multi-omics数据。临床数据missingness更高的每个值连续和分类的临床数据,14%和7%。我们设计了框架灵活与输入数据类型和数量能够处理连续和分类特征(图。1)。确定最优hyperparameters能够捕获数据不丢失的结构概括看不见的个人的能力,我们最初将数据集分为训练集和测试集。然后我们测量的能力模型来重现输入以及稳定当改装模型数据几次(补充无花果。2- - - - - -4)。中值重建精度0.95 - 1和最终的模型之间是高度稳定的,当重新训练5次平均余弦相似性的变化在0.037的潜在空间。因此,VAE与高精度模型能够重建数据在个人(补充图。5)。

图1:集成multi-omics数据VAE。
图1

一个使用移动,集成原理和分析方法。个体层面的non-omics和multi-omics VAE的数据作为输入。最优网络hyperparameters总结测试集的估计误差在所有个人在测试(测试可能性),培训重建精度和模型的稳定性。重大drug-omics协会从没有被干扰药物状态(0)为所有个人,是的(1)没有已经服用过这种药物。b潜在的UMAP表示表示,用新诊断T2D 789人。根据他们的个人是彩色的z按比例缩小的松田指数从低(蓝色),平均(黄色),高(红色)。c,重叠在重大drug-omics标准之间的联系t以及(双面Benjamini-Hochberg罗斯福< 0.01)输入数据,移动t以及(多级Bonferroni-correctedP调整< 0.05),并将贝叶斯方法(罗斯福贝叶斯< 0.05)。多个测试的不同方法修正与罗斯福的0.05在真实数据集上。移动之间的重叠t以及并将贝叶斯是用于进一步分析(n= 573)。d之间的重要关联发现药物和功能multi-omics使用移动数据集t以及,贝叶斯(紫色),t以及(绿色)或方差分析(橙色)。看到c在测试的信息。e分数multi-omics数据集的特性,发现了移动与至少一种药物(显著相关n= 20)。上下铰链对应于第一和第三个四分位数。铰链的上部和下部的胡须扩展最高和最低值,分别,但不超过1.5×铰链四分位范围。数据超出了胡须的结束是离群值,分别绘制。

源数据

潜在的空间包含重要的临床特征

说明如何捕获的模型结构的临床数据,我们分析了神经网络权重与编码器的输入变量。这里我们发现大多数的临床变量和饮食是最重要的前50名(补充图。6)。也是这样,当我们研究连续特性是如何影响个人的定位潜在的空间利用夏普利添加剂(世鹏科技电子)分析解释34离散的特性,而我们发现T2D-associated以及临床相关的遗传变异特性重要(补充图。7)。然后,我们研究如何区分个体胰岛素敏感性等特征量化的松田指数(图。1 b)。这里我们发现松田的趋势指数关联两个统一的歧管近似和投影(UMAP)维度使用皮尔逊相关系数(PCC)的0.34和0.35−维度1和2,分别。使用k最近邻(kNN)回归我们发现潜在的表示R2松田指数(k= 5)是0.70比0.37 - -0.38在使用residualized数据或降维使用主成分分析(PCA),这对大的趋势是一致的k(补充无花果。89)。这表明,潜在的表示捕获一个临床的信号,不是那么容易识别的residualized数据或利用PCA降维。此外,我们没有发现任何强大的本地missingness的影响(R2= 0.05k= 5),只有小年龄的影响(R2< 0.01,k= 100)。同样,我们使用k神经网络分类器研究混杂因素的影响性和招聘中心的全球结构潜在的表示。这些实现的精度性和中心的0.58和0.25,分别应该偶然相比精度为0.50和0.17,分别为(补充无花果。1011)。如果我们使用non-residualized数据,当不纠正干扰包括年龄,性别,和中心,我们观察到更大的效果(补充无花果。1011)。这说明VAE集成异构数据的能力而且大量混杂因素可以影响潜在的表示。

提取药物临床和multi-omics协会

然后我们调查如果模型学会了协会之间的临床、药物和multi-omics数据。为此,我们开发了一个方法,是基于利用一次输入特性(无花果。1)。例如,识别特定药物和其他之间的关联特性,我们模拟了药物的每一个个人,没有收到。除了不包括个人,已经收到我们也排除个人服用的药物药物相同的治疗药品类的解剖治疗化学分类(ATC)系统(补充表2)。然后我们评估每个功能重建的变化是否显著不同相比,当原始数据通过模型(图。1)。因为VAE模型是随机的,我们使用的结果在一个开发的模型和两种不同的方法来识别重要的关联。一种方法是基于应用t测试与Bonferroni调整在四个不同的模型,每个模型是改装的10倍(移动t以及),而我们也,受早变分工作29日,30.,31日使用贝叶斯决策理论模型和一个改装(贝叶斯)30倍。识别不同参数的方法,允许进行比较,标准方法(t以及,方差分析(方差分析)),我们应用他们两个数据集组成的随机临床,药物和multi-omics数据。我们的研究结果表明,移动t以及,贝叶斯识别drug-omics协会相比有很好的性能t以及真实和方差分析错误发现率(罗斯福)0.05(补充图。12和补充表3方法)。

移动识别药物和multi-omics协会

然后我们移动框架应用于识别药物直接综合数据关联。这两种方法,那就动起来吧t以及和贝叶斯移动,确定3143年和763年重大关联multi-omics和临床特征,分别为(补充表4- - - - - -6和补充数据2- - - - - -4)。我们分析了这两种方法的交叉路口,发现573年的763(75%)被发现显著关联的两种方法(图1 c)。做一个保守的选择,我们使用两种方法发现的关联进行进一步的分析。相比传统的测试,如学生的t以及方差分析,我们发现这增加211%更重要的关联,从184年到573年(无花果。1 d)。此外,重大关联被分布在药物(两面移动t以及,P= 0.016),不仅对药物管理大多数人如辛伐他汀、阿托伐他汀和二甲双胍。例如,确定移动平均20协会/药物相比,1t方差分析以及和0,高亮显示,我们的方法是提取关联更敏感药物给少数人(补充表56)。multi-omics数据集,我们发现最多的重要药物协会是代谢组学,临床和转录组数据平均每药物(图六个协会。1 e和补充图。13)。正常化时所有可能的协会,协会的最高分数的临床数据(8%),其次是针对性和诸多代谢组学与平均5.1%和2.8%的药物相关的特性,分别。最后,我们研究了如果我们的结果可能是由疾病亚型在T2D队列。要做到这一点,我们用四个原型集群Wesolowska-Andersen和Brorsson et al。7这是基于集群从32临床特征。我们发现,平均6.5%的子组的重要drug-omics协会是特定于一个表明协会没有主要由原型(补充表7)。

T2D生物标志物的变化与二甲双胍有关

然后我们研究药物和multi-omics交互(无花果。2和补充无花果。14- - - - - -18),最初集中在预期的临床药物的相互作用。例如,对于二甲双胍,我们确定88重要的临床和multi-omics交互在所有的数据集。当我们发现个人的调查协会低intra-patient变化表明稳定(图的更改。2 b和补充图。19)。我们发现二甲双胍能显著12临床标记胰岛素等T2D的间隙,活跃GLP-1,血糖水平从mixed-meal葡萄糖耐量试验,葡萄糖敏感性,和血压(无花果。2和补充数据2- - - - - -4)。有些关联的方向相反的预期的二甲双胍效应,也就是说,二甲双胍与降低葡萄糖敏感性基线(平均水平Z分数改变−0.029,置信区间[−0.030−0.029])。这可能是由于混淆了指示的研究设计,新诊断T2D个人已经规定二甲双胍预计会有更严重的临床T2D值相比,个人不需要医学治疗35,36。因此,由于所有个人T2D的混杂效应糖尿病状态可以从二甲双胍的影响是分不开。当调查我们发现二甲双胍的multi-omics协会两个相关的七个蛋白(ERAP2和CD40L)可能与免疫系统(图。3和补充数据4)。同样,转录组数据我们发现CXCL8和CD177受到了二甲双胍,前者已被证明是改变在健康个体和癌症患者37,38,39。目标代谢组学数据中我们发现了一个重要的浓缩与氨酰生物合成相关的代谢物(超几何测试,P= 2.2×10−4罗斯福纠正)。这个途径曾与二甲双胍在功能通路分析微生物变化的老鼠40。最后,没有针对性的代谢组学数据,二甲双胍最高数量的任何药物协会(协会)22日表明二甲双胍治疗的新代谢效应物可能被识别(补充图。17和补充表4)。

图2:重要的药物之间的关联,临床和multi-omics特性。
图2

一个,重要的药物和临床特征之间的联系。给出影响效果(z按比例缩小的单位)负(蓝色)正(红色)。重要的关联被移动t使用明星以及并将贝叶斯表示。特性(y设在)和药物(x设在)集群使用层次聚类的基础上欧氏距离。b,如一个但每个体层面的关联显示二甲双胍multi-omics特性证明关联是高度稳定的个人。特性(y设在)和新诊断T2D个人(x设在)。

源数据

图3:药物协会与宏基因组物种和药物之间的相似之处。
图3

一个、显示效果大小(z按比例缩小的单位)内(外)二甲双胍,辛伐他汀、阿托伐他汀,奥美拉唑,lansoprazole,扑热息痛和可待因。只有重大关联的任何药物和效果所示大小是可视化为布朗(消极的),灰色(没有),绿色(积极的)。选定的组学特性表示。基因本体元素代表的席位基因本体术语使用转录组(超几何测试中,罗斯福< 0.05)(绿色)。最里面的戒指表明世鹏科技电子特征的重要性从输入数据编码的表示。b效果(z按比例缩小的单位)(x设在)人类肠道的宏基因组物种明显与二甲双胍(橙色)或奥美拉唑(蒂尔)。c药物之间的相似之处,通过比较药物反应整个multi-omics数据集概要文件。余弦相似度表示从没有相似(蓝色)相同的概要文件(红色)。d,平均效应(z组学数据集分数)的药物。然而,所有20药物显示只有二甲双胍(红色),奥美拉唑(紫色),阿托伐他汀(绿色),辛伐他汀(蓝色)表示。其他药物都是灰色,没有一个文本标签。e不同的药物,multi-omics分布。队伍之间的数量确定1 - 20(药物)的基础上平均效应值d。箱子的颜色是根据个人服用特定药物数量从0(白色)到323(紫色)。之间没有相关性分数和排名的人服用一种药物(PCC = 0.14)。上下铰链对应于第一和第三个四分位数。铰链的上部和下部的胡须扩展最高和最低值,分别,但不超过1.5×铰链四分位范围。数据超出了胡须的结束是离群值,分别绘制。

源数据

二甲双胍与奥美拉唑协会与肠道微生物群

最近的研究表明摄入药物如何影响人类肠道微生物组成41,42。这里我们发现二甲双胍和奥美拉唑的唯一药物有明显的联想与宏基因组数据增加了11个宏基因组物种以及减少六个其他物种(无花果。3 b)。值得注意的是,增加的结果大肠杆菌和减少的水平Intestinibacter bartlettiiPeptostreptococcaceae sp。已报告在健康人服用二甲双胍干预研究43(补充数据4)。为研究报告发现了在健康个体,最有可能的变化不是解释为其他因素比二甲双胍治疗。奥美拉唑,蛋白质泵抑制剂(PPI),我们确定了三个链球菌物种显著增加(链球菌sp。,链球菌parasanguinis,前庭神经链球菌)(补充数据4)。以前的工作被别人丰富的有明确表明质子泵抑制剂的影响链球菌parasanguinis前庭神经在人类肠道44。有趣的是,用兰索拉唑和奥美拉唑目标K-transporter腺苷三磷酸酶alpha通道1和pH值增加的腹部。然而,这两种药物有不同的速度影响利率,奥美拉唑抒发其效果用兰索拉唑相比,速度较慢45。结合,更多的人正在服用奥美拉唑(125)用兰索拉唑相比(57),就可以解释为什么我们确定重大改变肠道微生物群的奥美拉唑和用兰索拉唑不是。

他汀类药物与降低低密度脂蛋白和胆固醇有关

接下来,我们研究了两个他汀类药物之间的关联,辛伐他汀、阿托伐他汀,被广泛用于治疗高血胆固醇降低低密度脂蛋白(LDL)46。同意他们的潜在的治疗血脂异常,我们发现低密度脂蛋白和总胆固醇水平显著相关,降低平均低密度脂蛋白z分数的变化−0.039 (CI[−0.040−0.038])和−0.015 (CI[−0.016−0.014])辛伐他汀和阿托伐他汀,分别(补充数据4)。这种效应会导致别人的许多参与者在服用他汀类药物在他们T2D诊断(辛伐他汀的平均持续时间为1.9年,阿托伐他汀平均持续时间为1.7年;补充表8),从而增加的机会观察药物的效果,减少了指示的混淆。有趣的是,我们注意到低密度脂蛋白和胆固醇水平的差别除了对这些剩下的一些临床关联并不相似。辛伐他汀与健康标记增加高密度脂蛋白(HDL)胆固醇,而阿托伐他汀有减少。这个同意两个他汀类药物对高密度脂蛋白的影响,辛伐他汀和阿托伐他汀,分别增加和降低高密度脂蛋白水平增加剂量47

不同的分子的辛伐他汀和阿托伐他汀

当调查multi-omics关联,这两种他汀类药物跨组学数据(图有不同的影响。3和补充无花果。在14到18岁20.)。在协议与临床资料的分析,我们发现辛伐他汀显著的差别与对这些胆固醇体内平衡(超几何测试,P= 0.005,富兰克林·德兰诺·罗斯福)和脂质运输途径(超几何测试,P= 0.002,富兰克林·德兰诺·罗斯福)的富集分析相关的成绩单(图。3和补充数据45)。具体来说,我们确定的变化LDLR,SREBF2,ABCA1,ABCG1表情,先前与辛伐他汀使用和积累脂肪酸和甘油三酯在肝脏通过不同的途径48,49,50,51,52(补充数据4)。阿托伐他汀在蛋白质组学数据,我们发现已知的协会FADS1(ref。53),以及EIF2AK3已报道,与胆固醇体内平衡54,55。此外,两个胰岛素生长因子结合蛋白(IGFBP1IGFBP4与阿托伐他汀和相关)IGFBP4对辛伐他汀(补充数据4)。这些曾被报道针对T2D和阿托伐他汀使用54,56。最后,在有针对性的代谢组学数据,我们确定了辛伐他汀与甘氨酸含量的增加,系统在低浓度与肥胖和T2D有关57(补充数据4)。此外,我们观察到的几个磷脂酰胆碱减少17减少代谢物(11),增加鞘磷脂和神经酰胺11增加代谢产物(2),这一比例曾被证明是改变与高剂量的辛伐他汀与其他他汀类药物58(补充数据2- - - - - -4)。阿托伐他汀,我们观察到与甘氨酸水平的降低,鞘磷脂的总体比率和神经酰胺减少13减少代谢产物(4)。

药物复方用药和相似性multi-omics数据

然后我们研究药物及其相似性multi-omics关联。总的来说,我们观察到四个集群包含三到六的药物,发现集群内的一些药物可能与复方用药(无花果。3 c)。因此,我们调查的影响,药物之间的联合协会和发现之间的关联整体药物协会相似性和个人服用两种药物(PCC 0.75,P值为2.2×10−35)。这个发现表明复方用药效果可能引入的一起服用这两种药物导致更高的所有临床和药物之间相似性multi-omics变化。然而,一些相似之处可能在某种程度上是由重叠的病人组和non-drug-related相似之处如服用此药的根本原因。一个例子可能是雷米普利的药物相似集群,乙酰水杨酸,比索,氨氯地平阿托伐他汀,可以与心血管疾病有关。此外,药物,最相似的药物和multi-omics协会可待因和扑热息痛余弦相似度为0.78。大多数46(38)的个人群体服用可待因也服用扑热息痛虽然大部分个人(52 90)只有服用扑热息痛。因此,我们不能排除这两种药物的相关multi-omics概要文件可以由部分重叠导致相似的潜在的表示和模型重建。最后,我们研究了已知的药物之间的相互作用和与毒品multi-omics概要;然而,没有发现显著的相关性(补充请注意和补充图。21)。

药物的影响广泛的跨组学数据

目前,有广泛的努力调查药物和肠道微生物的相互作用表明微生物药物的潜在目标和中介效应42,59,60。我们调查了几个multi-omics数据集除了肠道微生物组(宏基因组),我们可以比较的效果大小药物跨组学数据集。有趣的是,我们发现肠道微生物组是第二个最少的数据统计上显著的冲击在药物与17显著关联(补充表4和补充图。13)。只有饮食和耐磨数据少协会(11);转录组、蛋白质组学、针对性和诸多代谢组学44 - 134之间有重要关联。然后我们问药物的效果是不同的数据集和确定药物的累积效应大小在各自multi-omics数据集。这里我们发现宏基因组和转录组数据的平均效应值最低的药物,和那些在宏基因组数据集被显著降低相比其他组学数据集但转录组(方差分析,图基HSD测试、调整P< 0.05)(图3 d和补充表9)。当我们子集重要drug-omics协会,其中有重大关联的肠道微生物组只有两种药物(二甲双胍和奥美拉唑),我们发现这两种药物的效果是相似的或降低的效应大小相比其他multi-omics数据集(补充图。22)。最后,我们研究了如果这可能是由于增加了不确定性,当学习和重建一个给定的模式却只发现小相关性的pcc−0.15到0.16之间的形态不确定性和推断的影响大小形态(补充表10)。总的来说,这种观察意味着multi-omics反应药物刺激不仅针对肠道微生物组和多个组学数据集应该包括当试图理解药物的效果。

排名的影响药物multi-omics数据

最后,我们研究了单个药物的效应大小multi-omics数据集。我们发现二甲双胍和奥美拉唑,一般来说,最明显的影响了multi-omics数据(累计排名分数)和两个他汀类药物排名14(图20和20的药物。3 e),辛伐他汀的总体排名最低的累积效应大小。这种分析不是困惑个人服用特定药物的数量之间没有相关性(PCC = 0.14)的个体数量和药物的效果。这只是反对在调查重大关联效应高的他汀类药物排名2和4的大小(补充无花果。2223)。这个观察可能表明他汀类药物有更少的强烈影响,然而,例如,二甲双胍和奥美拉唑都最高的平均排名有较大的系统性影响。

讨论

在这里,我们表明,可以使用无监督深度学习整合和提取协会从一个深深表型群T2D的人。而垂直整合的现有方法multi-omics数据集中在编码数据因素或潜在的表示可用于聚类和分类,我们把这进一步采用VAE的生殖能力模型。相比传统的单变量统计测试,可以确定药物的重要drug-omics协会更广泛的选择。我们相信这些改进来自生殖的能力模型来推断multi-omics更改为个人不接受一种药物从而增加力量。

以前的工作分层新诊断T2D个人从这个队列使用32临床特征来识别四个原型代表不同T2D亚型7。此外,他们使用二甲双胍地位的个人调查,如果子感到困惑二甲双胍治疗,发现无显著影响集群及其multi-omics相关性。与他们的工作,我们添加了额外的药物药物19日数据和使用的所有数据作为输入到我们的无监督学习的深度学习模型允许模型同时从所有输入。因此,我们能够确定药物和multi-omics数据之间的关联,包括二甲双胍表明垂直整合的重要性。

横断面设计和临床data-guided医疗决定很难评估药物协会的方向性和因果推论进一步复杂化。因此,它是不可能的因果关系得出结论药物效果;然而,结果可能被视为输入设计通知研究以及随机临床对照研究。在未来,扩张与纵向multi-omics数据和建模时间可能会增加药物的因果关系的更多信息调查的长期影响和关联32

同样,我们的方法打开病人的个性化分析N1的方法61年。众所周知在卫生保健,通常选择一种药物或者治疗的情况下同时使用另一种药物不包括执行的控制实验。使用移动,我们原则上可以问如果我们给病人药物和比较的结果选择另一种药物。我们的队列大小是有限的,但对于较大的群成千成千上万的病人可能强大的识别分子协会和个体患者的治疗结果。

最后,我们强调,我们的方法是,当然,不限于药物协会;原则上,所有的组学数据可以评估协会在整个数据集。因此,我们相信,我们的生成方法打开新的可能性大multi-omics数据分析发现潜在的新的生物标记,执行gedankenexperiments,调查潜在的直接影响的药物分子在高维度数据,导致可测试的假设。

方法

的队列

队列和可用的数据包括在研究Koivula详细描述等。62年,63年和Wesolowska-Andersen Brorsson et al。(ref。7)。总之,我们使用了新诊断sub-cohort IMI-DIRECT研究的789名参与者组成。百分之五十八的参与者是男性和参与者在基线以下特点:62岁(8.1)年;身体质量指数(5.0)30.5公斤米−2;空腹血糖7.2(1.4)更易与l−1;2 h葡萄糖8.6(2.8)更易与l−1。参与者被诊断2年内在招聘和糖化血红蛋白(HbA1c) < 60.0更易与摩尔−1在前三个月(< 7.6%)。所有样品代表不同的个体。此外,而Wesolowska-Andersen和Brorsson et al。7使用数据从基线和随访18 - 36个月我们只使用基线数据建模。除了从Wesolowska-Andersen和Brorsson基线数据,我们进行了大量的管理和协调的药物记录包含在电子案例研究护士在不同形式的招聘中心,因此使用标准化的ATC注释药物个人数据(参见下面的更多细节)。研究批准协议获得的每个区域分别研究伦理审查委员会(瑞典隆德:20130312105459927;丹麦哥本哈根:h - 1 - 2012 - 166和h - 1 - 2012 - 100;荷兰阿姆斯特丹:NL40099.029.12;英国纽卡斯尔,邓迪和埃克塞特:12 /不/ 0132)和所有参与者提供书面知情同意登记。研究符合伦理原则为医学研究涉及人类参与者中概述《赫尔辛基宣言》。可以找到更多细节关于数据生成Wesolowska-Andersen Brorsson et al。7

预处理的数据

从临床、环境和问卷数据只有变量变化在整个数据集在至少10%的人包括在内。基因组数据作为风险等位基因的基因型鉴定Mahajan et al。64年。393年总风险等位基因被确定在我们群的403协会提到。包括作为风险等位基因纯合子基因型,杂合子,没有等位基因,或失踪,如果个人的轨迹并不确定。饮食在自我报告的数据是包括47个特性总摄入营养素和维生素在24小时内。这套可与加速度计测量包括25期间总结了运动和心率的测量。RNA转录组数据(测序)空腹全血样品处理RailRNA (v0.2.4b)65年获得了所有样品,只有最重要变量基因包括在内。变量选择基因通过计算每个基因的标准差在所有个人和选择基因与一个高于平均水平的标准差。目标和非针对性空腹血浆代谢组学数据都包括对所有测量通过质量控制。在蛋白质组学数据,所有测量在测量范围内基于OLINK抗体面板包括和residualized板布局。宏基因组数据只是供大约三分之一(256)的个人和规范化阅读项包括了宏基因组物种66年。分类数据,包括问卷反应、药物数据和基因组学,是一个炎热的编码。连续的数据被收集residualized中心作为数据收集从六个不同的欧洲国家,因此,由不同的护士和实验室技术人员,以及不同时段采集标本,这可能对测量结果有很大的影响。此外,年龄和性别的数据residualized这些可能是生物non-disease-related混杂因素的数据。最后,每个连续的数据集z剂量归一化/特性来确保每个功能是分布在0。

药物使用ATC系统的分类

ATC系统是为治疗药物分类系统。系统层次结构,最高的水平,水平1-Anatomical主要组,指定目标器官或组织,和最低级别,级别5-chemical物质,指定了活跃的化合物。之间的三个级别指定的治疗,药物,和化学水平,分别。因此,我们绘制所有药物尽可能低的水平,防止信息丢失。共有4155个条目可以映射到5级。55项,只有高级映射是可能由于缺乏特异性和43项不能映射到ATC系统,要么因为化合物数据库中不存在,例如营养食品化合物,或者当我们无法确定哪些药物注册的参与者。ATC系统不仅指定化合物名称,而且管理路线和每日剂量超过一半的5级条目。然而,由于不确定性的可靠性注册的剂量,只有药物名称和管理路线被用于映射。在没有政府路线的实例,该药物是由药物名称映射。

药品数据收集和清理

研究参与者被要求登记他们当前在筛选和药物使用基线。药物名称注册为自由文本一起管理路线,剂量和频率和指示。从其他抗糖尿病和non-anti-diabetic药物二甲双胍单独记录。收集到的数据在质量变量,使用泛型和品牌,在许多情况下的特定国家的参与者。数据清洗的四个步骤:(1)删除特殊字符,公司名称,配方,和其他无关的信息;(2)自动映射到PubChem数据库;(3)手动映射仿制药的名字;和(4)映射到ATC系统。使用安慰剂的迹象,例如参与临床药物试验,一被发现。只包含活性化合物,因此,可能的品牌变化被忽视,包括膳食补充剂。 Drug combinations were mapped, when possible, to the ATC code specifying said combination. However, when the specificity of the proposed ATC code was less specific than the registered drugs, the drug combinations were mapped to individual ATC codes, that is, ‘Perindopril’ (C09AA04) and ‘Indapamide’ (C03BA11) was used instead of ‘Perindopril and diuretics’ (C09BA04). Entries were mapped to ATC codes with the administration route when possible and otherwise mapped without the administration route. Dosage information was not used in the mapping process. In the manual mapping process, 99.4% of terms were assigned and a total of 359 drugs and drug combinations were identified. A total of 339 drugs (94.4%) was mapped to 441 ATC codes.

VAE的设计

VAE框架构建占数量可变的完全连接编码器和译码器隐藏层和潜层样本的高斯分布N(0, 1)两个向量的大小Nl代表的意思,µ和标准偏差,σ。每个隐层包括两批规范化和辍学67年和漏水的解决线性单元(LeakyReLU)68年激活功能。每个数据集都连接到一个输入层分类和连续变量。允许dataset-specific重量误差计算是为每个数据集分别完成的。这里我们应用熵损失分类数据和均方误差作为PyTorch中实现连续数据69年。损失由输入数据集大小和批处理大小归一化。高斯分布的异常处罚通过添加Kullback-Leibler散度(KLD)损失。最后被定义为损失

$ $ L = \ mathbf {W} _ {\ mathrm{猫}}\ * \ mathbf {E} _ {\ mathrm{猫}}+ \ mathbf {W} _ {\ mathrm {con}} \ * \ mathbf {E} _ {\ mathrm {con}} + \ mathbf {W} _ {\ mathrm {KLD}} \ * \ mathrm {KLD} $ $

在这里,EE反对向量的归一化重建误差为每个连续和分类数据集。WW反对也是向量长度相同的错误引入dataset-specific权重。我们应用同等重量的1对所有数据除了连续临床数据,我们使用2的重量。W逗留一番是一个体重KLD定义为W逗留一番=β×Nl−1我们使用β0.0001的最终模型。KLD被定义为

$ $ \ mathrm {KLD} ={\}和{- \压裂{1}{2}(1 +左σ(\ \)\ ln \ \μ^ 2 - \σ)}$ $

有效处理缺失数据的连续特性我们编码意味着值在一个特定的功能在训练和排除反向传播期间丢失的数据点。与数据z分数归一化均值表示为零。的分类特性,我们包括零矢量和忽略指数特性在PyTorch用来叉实现反向传播的缺失数据不包括错误。亚当的VAE模型训练的优化器70年,mini-batch大小为10和增加批量大小的1.25倍在训练后每50时代。训练时期的数量设置为200的基础上早期停止测试集如下所述。此外,我们使用热身训练模型首先包括完整的KLD 10时代后慢慢增加重量时代4,6,8。每个病人的潜在表示通过他们经过训练获得了VAE和提取µ层。使用PyTorch VAE实施69年(v.1.7.0)和运行使用运行CUDA GPU (v.10.2.89)。

Hyperparameter multi-omics集成优化

我们最初将数据集分为训练(10%)(90%)和测试集来确定最优hyperparameter设置有效捕获数据结构,而不丢失概括的能力测试数据(补充无花果。23)。我们测试的不同组合尺寸的隐藏层,隐藏层的数量,大小的潜在空间,辍学,和体重逗留一番。然后我们评估模型的基础上,测试对数似和重建精度。隐藏的神经元的数量,200使用的变化,500年,800年,1000年和1200年,层数介于1和5。测试潜在的大小是20至400年辍学的10%,20%,和30%,KLD权重为0.001,0.0001和0.0001。我们定义一个精确的重建为分类变量相对应的概率最高的类的类输入。连续变量,准确评估通过比较重建阵列输入阵列使用余弦相似性为每个单独的而不是使用精确匹配。分类和连续数据只有non-missing值时使用计算重建的精度。我们选择训练时期的数量的基础上,当最优测试可能性测试期间实现了围捕到最近的100时代,以确保足够的训练学习数据的复杂性。这里我们发现更复杂的模型,高数量的隐藏层神经元和导致更差的性能测试集(补充图。2),模型与多个隐层无法提供良好的重建在没有过度拟合训练数据。唯一的例外是潜在的大小表示,这给糟糕的性能与小尺寸(< 50)和同样良好的性能对于较大尺寸(从100年到400年)(补充图。3)。表现最好的五个模型,稳定测量选择最终的模型。模型的稳定性评估相同的重复训练hyperparameters和余弦相似性计算不同其他个体的潜在空间。如果模型产生相同的结果平均余弦相似性的变化应该是零。最接近零模型的平均变化被认为是最稳定的。最后hyperparameters被设置为2000个神经元隐层之一,至少有100的潜在的大小,和10%的辍学正规化。

评估功能的重要性

特征提取的重要性权重的网络模型只有一个隐藏层,因为输入数据z分数归一化计算

$ $ I_i = \ mathop{总和\}\ limits_ {j = 1} ^ {n_ {\ mathrm{隐藏}}}\左| {w_ {ij}} \ | $ $

在哪里th特性输入和\(左\ | {w_ {ij}} \右| \)体重的绝对值来自哪里th的输入j隐藏的神经元。评估的实际影响潜在表示世鹏科技电子的适应19分析应用。模型性能评估的差异作为潜在的绝对差异表示当改变每个输入失踪所有个人和通过它通过训练模型。

提取重要药物协会

提取药物协会的扰动输入数据在所有个人训练后最终的模型。因此,对于每种药物我们改变了药物的地位都患有“不接受”“接收”。重要的是,我们只包括个人,没有收到具体的药物或其他药物在同一治疗组(ATC要求等级2),然后为每个药物改变,我们比较重建的变化,当我们通过原始(un-perturbed)数据通过网络。换句话说我们确定差异,网络推断从药物的变化状态,在训练从所有人接受这种药物。我们使用两种策略,一是基于学生的合奏t测试使用基准测试阈值,另一个是基于贝叶斯决策理论。这两种方法对随机数据集,所有基准测试输入数据矩阵行和列上。我们模拟影响打乱数据通过随机抽样相结合的药物,multi-omics数据集和功能组学数据集内。为每个组合,然后取样标准正态分布的影响N(0, 1)并将这个值添加到组学特性时所选择的药物是由一个独立的个体。因此,我们不希望所有的影响将是重大的统计测试,因为我们样品从N(0,1)和一些影响将接近0。我们添加了一个共有100个影响重组数据,重复整个过程生成两个重组数据集添加了他们独特的效果。此外,我们调查的重要关联,效应值估计和模型重建并非由个人偏见的不确定性数据集的不确定性。这样做是通过计算pcc之间的平均估计效果在所有20药物和模型输入和重建的区别为每个组学特征。

使用移动显著关联t以及

评估如果重建重要的变化,我们首先确定预期的平均变化时传递原始和摄动数据通过模型十次。这些平均值的基础上,我们用一个学生的t以及在Python中实现相关样本SciPy (v.1.3.1)71年基线和所有non-missing drug-perturbed数据之间的连续数据。所有P值随后被Bonferroni-corrected单独为每个药物,我们应用一个意义阈值的调整P< 0.05。我们重复整个模型的分析与再培训每一个潜在的十倍大小(150,200,250,300)。协会只包括分析如果他们重要的至少三四个潜在的大小和重复的至少5分。因此,报道P值的平均P值在10复制和4模式测试,这是一个共有40双边Bonferroni-correctedt测试。重建的变化,我们报告的影响大小,计算的平均差异在10复制和4模型试验和报告了95%的置信区间。

使用贝叶斯决策理论重要的关联

基于贝叶斯决策理论的方法我们使用一个受单细胞变分推理方法29日和洛佩兹et al。31日。我们训练有素的VAE与潜在的大小为150个神经元模型和基准测试使用不同大小的潜在的和整体的方法1、5、10、20、30、35岁,40或50个模型,我们称为不菲。我们平均的不菲的重构和使用这些获得后验non-perturbed数据和每个药物扰动。因此,对于VAE合奏改装,个人n、特性f,和药物d我们定义了变分重建\ \(帽子间{infd} \)。通过平均跨VAE不菲,我们获得的平均后验估计\ \(帽子间{nfd} \)。然后,对于每一个药物d我们比较两个模型:f \ \ (M_d ^)在功能f与药物相关显著,替代模型f \ \ (M_0 ^)在功能f不显著相关的药物d。因此,我们评估的频率\(左\ |{\帽子间{nfd} - \帽子间{nf0}} \ | > 0 \)并计算贝叶斯因子(K):

$ $ K = {{{\ mathrm{日志}}}}_e \左|{\压裂{{\ mathrm P{} \离开({M_d ^ f | \帽子间{fd},, \ \帽子间{f0}} \右)}}{{\ mathrm {P} (M_0 ^ f | \帽子间{fd},, \ \帽子间{f0})}}} \ | $ $

我们根据排名相关的特性K(ref。72年)。我们设置的罗斯福α通过接受协会(n)之间的特性和药物,直到累积的证据P (0)接受药物高于阈值特性。自\ (\ mathrm {P} (M_0 ^ f) = (1 - \ mathrm {P} (M_d ^ f)) \)我们接受了drug-feature关联而累积的证据E低于α

$ $ E = \ mathop{总和\}\ limits_f \压裂{{(1 - \ mathrm {P} (M_d ^ f))}} {n} < \α$ $

基准测试的t以及,t以及,贝叶斯

能够比较显著的数量之间的联系方法,我们使用了两个随机的数据来估计罗斯福从地面真理,添加drug-omics效果(补充表3)。我们发现一个t以及真实Benjamini-Hochberg罗斯福为0.01有罗斯福的0.00和0.06两个随机的数据集,对应于52和67真阳性0和4假阳性,分别。为移动t以及,我们基准测试的数量不菲的4模型,发现10不菲的真实罗斯福0.02和0.06,与48和61真阳性以及1和3假阳性,分别。将贝叶斯我们基准测试的数量不菲的模型150潜在的神经元和罗斯福的累积证据与罗斯福的地面真理。使用贝叶斯罗斯福的0.05我们发现30不菲日渐罗斯福的0.02和0.05,分别。两打乱数据集42和59真阳性发现的所有三种方法(补充图。12)。

使用其他方法计算药物协会

我们比较我们的发现与标准协会确定使用学生的统计方法t以及不相关的样本和一个方差分析两组个体之间“不接受”和“接收”每一个药物。这里我们使用Benjamini-Hochberg罗斯福校正73年与一个调整P< 0.01。此外,我们测试了如果一个绝对最小收缩和选择算子(套索)模型能够识别特性显著影响预测“不接受”或“接受”为每个药物组。然而,拉索模型无法收敛可能由于高输入特征维数。所有统计测试是用Python SciPy (v.1.3.1)71年

药物作用大小和跨组学数据的相似性

药物作用大小确定基线之间的差异和drug-perturbed变分重建,也就是说,是整个VAE合奏不菲的平均差异报告95%置信区间。药物相似余弦相似度的计算在Python中实现SciPy (v.1.3.1)71年平均效应值之间的所有功能确认为显著相关的至少一个药物在和每个数据集内。区别只是non-missing数据计算和个人没有药物或药物在同一组。药物作用的秩为每个组学数据集大小决定排名的影响大小从1到20。排名20表明药物最高平均效应值在这个组学数据集相比其他药物。multi-omics资料之间的相关性和许多个人服用此药对计算分数的个人,两种药物之间的重叠。

Molecular-focused multi-omics的分析数据

为了更好地理解分子概要文件中标识关联的转录组和蛋白质组学数据我们检测富集基因本体术语以及分子途径。的转录组数据,我们评估了从Reactome分子生物学过程的模式和途径74年(v.3.7)使用每个药物的基因显著相关的背景的所有基因的列表包含在数据集成。我们使用WebGestaltR75年(v.0.4.4)分析与默认设置(超几何测试)和评估所有结果罗斯福< 0.05。目标代谢组学数据分析了潜在的代谢物使用MetaboAnalyst充实76年(5节)代表分析使用一个超几何检验和罗斯福为0.05。我们调查了充实KEGG数据库中已知的途径以及浓缩化学结构的子任务,主要和父类的水平。分析,我们使用了包括小组目标代谢物作为参考数据。

协会在糖尿病原型差异

正如前面提到的,以前的工作由Wesolowska-Andersen和Brorsson等人进行原型分析multi-omics数据只有二甲双胍药物数据7。他们的原型基于临床标记和识别四个截然不同的和一个“混合”T2D原型与临床和组学概要文件。调查如果这些不同的原型药物协会我们使用的差异t以及平均效应值变化对其余每个原型的个人个人。重要的分析只是做每个药物药物协会。所有的分析只是为了个人而服用药物或药物在同一ATC治疗类类似于主要的分析。

药物之间相互作用

我们使用了一个内部药物之间相互作用生成纲要从公开渠道(补充表11)来评估药物组合是否之前报告的是互动77年。概要包含交互从26个不同的药物警戒数据集,面向临床信息,模式NLP全集,drug-Cytochrome P450来源的关系。药物之间的12对在我们的数据集可以确定药物之间相互作用报道严重(主要的,温和的,很小,可能,待定,和没有)表明临床意义。

报告总结

进一步研究信息设计是可用的自然研究报告摘要与这篇文章有关。