91学术服务平台

您好,欢迎来到91学术官网!站长邮箱:91xszz@sina.com

发布论文

论文咨询

基于溶酶体相关基因的阿尔茨海默病人工神经网络模型

  2024-10-11    81  上传者:管理员

摘要:目的 建立基于基因表达综合数据库(GEO)阿尔茨海默病(AD)溶酶体相关基因的随机森林和人工神经网络联合诊断模型并评价其效果。方法 收集GEO中AD患者的资料,使用随机森林筛选AD中溶酶体相关的特征基因,使用特征基因构建用于诊断AD的人工神经网络模型。对模型进行验证,通过曲线下面积分析评价模型的临床应用价值。同时,计算AD中免疫细胞的浸润情况,分析特征基因与免疫细胞浸润的关系。结果 在AD和正常样本中鉴定出20个溶酶体相关基因,最终通过随机森林筛选得到最相关的8个特征基因[淀粉样前体蛋白(APP)、艾杜糖-2-硫酸酯酶(IDS)、RAS致癌基因家族成员RAB6A、β-甘露糖苷酶(MANBA)、脱氧核糖核酸酶-2-β(DNASE2B)、RAB11家族相互作用蛋白(RAB11FIP)3、中性粒细胞胞质因子(NCF)4、衔接因子相关蛋白复合体1,γ2亚基(AP1G)2],并构建人工神经网络诊断模型。使用该模型,绘制了训练组和验证组诊断的受试者工作特征(ROC)曲线,曲线下面积分别为0.934和0.690。同时,对AD组和正常组进行免疫测定,结果显示AD中B细胞、中性粒细胞、自然杀伤细胞、浆细胞样树突细胞、辅助性T细胞、肿瘤浸润淋巴细胞、调节性T细胞、抗原呈递共抑制、抗原呈递共刺激、趋化因子C-C-基序受体、检查点、人类白细胞抗原、主要组织相容性复合体Ⅰ类分子、低度炎症、T细胞共抑制、T细胞共刺激、Ⅰ型干扰素反应、Ⅱ型干扰素反应高表达;而CD8+T细胞、未成熟树突状细胞、肥大细胞、滤泡辅助性T细胞、Th1细胞则低表达。同时,DNASE2B、NCF4、RAB11FIP3、AP1G2、MANBA、RAB6A、IDS基因与免疫浸润中的1个或多个细胞及功能具有显著相关性。结论 构建的8个溶酶体相关基因的人工神经网络诊断模型可用于诊断AD。同时,特征基因影响AD的免疫浸润,可以为探索AD的治疗及相关机制提供新的视角。

  • 关键词:
  • 人工神经网络
  • 溶酶体
  • 诊断模型
  • 阿尔茨海默病
  • 随机森林
  • 加入收藏

阿尔茨海默病(AD)是一种以中枢神经系统疾病为特征的慢性退行性脑病,主要影响四五十岁的人[1]。AD的主要临床特征是记忆障碍,可能伴有失语和人格行为改变[2]。AD的病理生理变化可能在任何临床症状出现前数年就开始了,并且可能一直进展到严重的认知障碍[3]。因此,不能仅根据临床特征来识别AD,研究人员已竭尽全力使用临床和生物标志物数据来识别AD[4]。在过去的几十年中,人们对AD的了解显著增加,同时也凸显了这种疾病的复杂性[5]。成像技术、认知水平识别和各种流体生物标志物用于诊断AD[6]。越来越明显的是,AD是一种具有复杂监管网络的疾病,并且正变得越来越复杂[7]。因此,迫切需要更精确的AD诊断和治疗目标。在过去十年中,微阵列和高通量测序技术的快速发展为解码疾病的遗传和表观遗传决定因素提供了一种可靠且广泛的方法,同时也为各种疾病的诊断和治疗提供了大量的证据[8]。尽管已经确定了可用于预测和诊断AD的遗传风险标记,但由于遗传结构的复杂性,它们的作用可能会受到限制[9]。在诊断模型中,使用多种生物标志物已被证明可以显著提高成功率[10]。近年来,构建基于基因表达数据的分类模型的主要困难一直是选择最重要的指标或特征进行分类。

溶酶体是降解各种大分子的膜封闭细胞器,由De Duve在1955年首次描述[11]。溶酶体具有单个脂质双层,其中包含超过100种膜蛋白,包围着一个酸性管腔,该管腔容纳50种或更多溶酶体水解酶[12]。溶酶体在细胞内和细胞外物质(包括脂质、蛋白质、核酸和碳水化合物)的降解和再循环中至关重要。从历史上看,溶酶体被视为静态细胞器,代表内吞作用或吞噬作用后降解的终点。事实上,溶酶体是动态的、高度调节的,并且其pH值可能会有所不同[13]。此外,溶酶体不仅仅是降解分子,还在细胞信号传导、新陈代谢、膜修复、体内平衡和免疫反应中发挥其他关键作用[14]。

尽管溶酶体与AD的关系不断得到证实[15],但仍缺乏系统分析溶酶体相关基因与AD关系的研究。哪些溶酶体相关基因在AD中起关键作用,溶酶体功能如何影响AD的免疫过程,是否可以通过溶酶体功能状态进行疾病诊断和分类,仍有待进一步研究。为了寻找AD中溶酶体相关的生物标志物,实现早期及时诊断,本研究通过随机森林,获得了8个疾病特征基因[淀粉样前体蛋白(APP)、艾杜糖-2-硫酸酯酶(IDS)、RAS致癌基因家族成员RAB6A、β-甘露糖苷酶(MANBA)、脱氧核糖核酸酶-2-β(DNASE2B)、RAB11家族相互作用蛋白(RAB11FIP)3、中性粒细胞胞质因子(NCF)4、衔接因子相关蛋白复合体1,γ2亚基(AP1G2)],并构建了8个溶酶体相关基因的人工神经网络模型用于AD的诊断,结果表明这些生物标志物对AD的诊断是有效的。同时,在其他数据集中验证了该模型的准确性。为了进一步研究AD样本中的免疫细胞浸润情况,计算了每个样本中16个免疫细胞相关浸润和13个免疫相关途径评分,分析了免疫细胞及功能与模型构建基因的相关性。希望通过本研究,为研究溶酶体相关基因在AD诊断及发病机制中的作用提供新视角。


1、资料与方法


1.1 资料来源

本研究中的数据集来自基因表达综合数据库(GEO),该数据库存储有关基因如何使用高通量方法表达的信息。由国家生物技术信息中心(NCBI)创建。本研究使用关键词“AD,正常”或“AD,健康”,通过NCBI数据库平台进行广泛搜索。选择的数据集类型是数组表达谱,生物类型是智人,数据集的样本量大于20。使用R包sva以消除来自不同平台的数据批次效应。对这些数据集的log2转换分位数归一化信号强度进行校正,并输出校正结果。还从基因集富集分析(GSEA)官网下载了溶酶体相关的基因集,使用的关键词为“溶酶体”,生物的类型是智人,共得到796个溶酶体相关基因。

1.2 筛选差异基因和功能富集

合并两个数据集为训练集,从训练集中提取796个溶酶体相关基因的表达,使用R包“limma”包获得AD和正常样本之间的差异基因,调整后的P值小于0.05和log差异倍数(FC)大于0.5被确定为差异基因的显著性标准。差异基因热图使用R包“pheatmap”创建,火山图使用R包“ggplot2”创建。同时,使用R包“clusterProfiler”对差异基因进行基因本体论(GO)和京都基因和基因组百科全书(KEGG)的富集分析,并以P值小于0.05绘制相关气泡和直方图。

1.3 Metascape和蛋白质-蛋白质相互作用(PPI)网络的构建

使用Metascape对差异基因进行富集分析;并使用STRING数据库研究PPI网络。

1.4 关键基因的随机森林筛选

通过R包“random Forest”筛选关键基因。为了确定最佳错误率和最佳稳定性树数作为最佳参数,计算1~500棵树每个错误率。之后,使用随机森林筛选关键基因,并使用基尼系数法计算维度显著性值。用于人工神经网络(ANN)模型开发的AD关键基因是从显著性大于10的差异基因中选择的。训练数据集中的关键基因根据其无监督的层次聚类分为新的组,并使用R包“pheatmap”生成热图。

1.5 人工神经网络诊断和预测模型的构建

首先,将差异基因表达数据转换为基于表达水平的基因评分表。将所有样品表达值的中值与给定样品中单个基因的表达值进行比较。如果上调基因的表达值大于中位值,则为1;否则为0。同理,如果下调基因的表达值大于中位值,则为0;否则为1。AD是结果变量,病例被分配为1,对照被分配为0。R包“neuralnet”用于创建基于关键基因评分的ANN模型。模型参数设置为5个隐藏层。使用R包“pROC”计算受试者工作特征(ROC)曲线下的面积(AUC)。

1.6 ANN模型验证

为了评估ANN模型的诊断性能,使用外部数据集(GSE138260)作为验证数据集来验证诊断和预测模型。GSE138260的ROC曲线使用R包“pROC”生成,并使用AUC和95%置信区间(CI)来验证模型的效率。

1.7 免疫相关性分析

在MsigDB数据库中输入“IMMUNITY”关键词,搜索相应gmt文件。接着通过“GSVA”R包对表达矩阵进行单样本基因富集分析(ssGSEA),估算每个样本中16个免疫细胞相关浸润和13个免疫相关途径评分,从而评估AD组和正常组在免疫细胞及免疫相关功能的差异,并绘制箱图。同时,为了分析AD中溶酶体相关基因在免疫细胞及功能的相关性情况,采用“psych” R 语言软件包对ssGSEA和AD中溶酶体相关基因的关键基因表达矩阵 2 个结果文件进行分析,并构建相关性热图。

1.8 统计学方法

数据预处理、模型的构建、验证及评价均基于R语言(版本4.2.1)及相关的R程序包。所有统计学检验为双侧检验。


2、结 果


2.1 差异基因的识别

GSE5281是一个包含74个AD样本、87个正常样本的数据集。从3个AD中心收集脑样本。使用Affymetrix U133 Plus2.0分析基因表达。GSE44771是一个包含101个AD样本和129个正常样本的数据集。脑样本是通过哈佛脑组织资源中心收集的。使用Rosetta/Merck Human 44k 1.1微阵列分析基因表达。GSE138260是一个包含17个AD样本和19个正常样本的数据集。使用17例AD患者和 19 名健康对照者的脑组织,他们在没有任何神经或精神疾病史的情况下死亡。使用安捷伦定制表达微阵列分析基因表达。3个数据集信息见表1。将两个数据集(GSE5281和GSE44771)组合起来创建一个具有大样本量的训练数据集。同时,将GSE138260设置为验证数据集。获取训练集中 796个溶酶体相关基因的表达,根据筛选标准logFC>0.5和调整后的P值<0.05,获得了在正常样本和AD中差异表达的20个基因。使用火山图来描述数据集中所有差异基因的表达状态。和正常组相比,差异基因表达上调见图1。

表1 训练/验证数据集的信息(n)

2.2 差异基因的GO和KEGG富集分析

GO术语表示,在生物过程(BP)类中,差异基因主要参与对金属离子的反应、磷脂酰肌醇3-激酶信号传导、分泌的负向调节、磷脂酰肌醇介导的信号传导和肌醇脂质介导的信号传递;在细胞组成(CC)类中,差异基因主要富集在内细胞囊泡、分泌颗粒膜、涂层囊泡、凝结素包裹的囊泡膜、顶体囊泡和次级溶酶体中;在分子功能(MF)类中,差异基因主要产生超氧化物的还原型烟酰胺嘌噙呤二核苷酸磷酸(NADPH)氧化酶激活剂活性,见图2A。KEGG术语表明,差异基因主要参与了溶酶体、吞噬体、利什曼病3条通路,从而在AD的发生和发展中发挥重要作用,见图2B。

2.3 Metascape和PPI网络分析

基于Metascape分析创建了一个网络图。斑点代表功能或途径,较大且连接的点表示功能或途径之间存在更多相似的基因,见图3A。图3B显示前10个功能丰富的基因列表,差异基因主要富集在溶酶体中,参与受体酪氨酸激酶的信号传导和溶酶体囊泡生物发生等通路。此外,PPI网络显示了差异基因主要参与引发胱天蛋白酶(caspase)激活和神经元细胞体(通过caspase-3)和轴突(通过caspase-6)的退化;参与自噬的可溶性N-乙基马来酰亚胺敏感因子附着蛋白受体(SNARE),通过与溶质载体家族17成员和溶质载体家族29成员(STX17-SNAP29)二元t-SNARE复合物的相互作用,直接控制自噬体膜与溶酶体膜的融合;刺激成纤维细胞的生成,见图3C。

图1 训练集中溶酶体相关基因表达

红色块表示高表达基因,蓝色块表示低表达基因

2.4 关键基因的随机森林筛选

为了获得关键基因,将上述20个差异基因输入到随机森林分类器中。基于随机森林树的数量与模型误差之间的相关图,见图4A,最终选择了73棵树作为模型的参数。然后确定了8个显著性>10的基因作为候选基因进行分析。根据图4B,IDS是最显著的变量,其次是RAB6A、APP、MANBA、AP1G2、RAB11FIP3、NCF4和DNASE2B。图4C表明,在来自训练数据集的溶酶体相关基因数据集中,8个基因能够识别AD样本。RAB11FIP3、RAB6A、IDS、APP是一组在正常样本中高表达而在AD样本中低表达的基因。另一方面,AP1G2、NCF4、MANBA、DNASE2B则属于不同的集群,在正常样本中低水平表达,但在AD样本中高水平表达。

图2 AD中溶酶体相关基因的差异基因功能和途径富集分析

图3 Metascape和PPI网络

2.5 ANN模型的构建

得到一个基因评分表,其中包含8行样本、391列和一列用于AD结果变量(病例/正常)。基于基因评分表建立了一个人工神经网络模型。为ANN设置了8个输入层、5个隐藏层和2个输出层,见图5。该模型的AUC为0.934,见图6。

2.6 ANN模型的验证

该模型在GSE138260中的预测精度为0.690,见图6,表明ANN在诊断AD方面是稳定的。这些发现表明,已经成功开发了一种基于AD和正常样本差异基因表达的AD诊断模型。

图4 随机森林筛选AD溶酶体相关关键基因

A随机森林树数与模型误差之间的相关图。当RF树的数量在73左右时,错误率是稳定的。B随机森林分类器中基尼系数方法产生的结果。C随机森林生成的8个关键基因热图

2.7 免疫细胞相关性分析

通过箱图对AD患者与健康人群进行组间免疫浸润细胞和功能差异分析,见图7A、B。结果显示,在AD组中B细胞、中性粒细胞、自然杀伤细胞、浆细胞样树突状细胞、辅助性T细胞、肿瘤浸润淋巴细胞、调节性T细胞、抗原呈递共抑制、抗原呈递共刺激、趋化因子C-C-基序受体、检查点、人类白细胞抗原、主要组织相容性复合体Ⅰ类分子、低度炎症、T细胞共抑制、T细胞共刺激、Ⅰ型干扰素反应、Ⅱ型干扰素反应显著增加(P<0.05,P<0.01,P<0.001),而CD8+T细胞、未成熟树突细胞、肥大细胞、滤泡辅助性T细胞、Th1细胞则显著减少(P<0.05,P<0.01,P<0.001)。同时,基于ssGSEA及AD中溶酶体相关基因的关键基因表达矩阵2个结果文件,此次研究得到AD溶酶体相关基因的关键基因与免疫细胞及功能的关联性评分图,见图7C,结果显示,DNASE2B、NCF4、RAB11FIP3、AP1G2、MANBA、RAB6A、IDS基因与免疫浸润中的1个或多个细胞及功能具有显著相关性。

图5 人工神经网络结果的可视化

图6 人工神经网络模型的构建及验证

图7 免疫浸润分析

A.AD组与对照组的免疫浸润细胞差异性分析箱图;B.AD组与对照组的免疫浸润功能差异性分析箱图。1)0.01<P<0.05,2)0.001<P<0.01,3)P<0.001。C.AD溶酶体相关基因的关键基因与免疫浸润相关性的分析热图,颜色越深,数值绝对值越大,则代表相关性越显著,反之则相关性越小


3、讨 论


在20世纪,AD研究的进步导致了越来越有效的治疗方法的发展[16]。然而,AD发展的具体机制仍然未知。由于症状与其他神经病理学疾病的症状重叠,因此几乎不可能对AD进行早期临床诊断。识别AD的关键诊断和预后生物标志物仍然至关重要。在过去的几年里,新的证据表明,溶酶体功能障碍与AD的发生和发展有关。在遗传水平上,与溶酶体和自噬功能相关的多个基因的突变与AD相关,受损的溶酶体、自噬和囊泡运输发生在AD死后组织中[17]。导致AD的某些基因突变会影响Rab蛋白活性,诱导内溶酶体途径功能障碍,并导致蛋白质聚集体的积累[18]。此外,编码溶酶体蛋白[如颗粒蛋白前体(GRN)、跨膜蛋白(TMEM)106B和带电多泡体蛋白(CHMP)2]的基因突变会影响溶酶体酸化并降低溶酶体酶活性[19]。中枢神经系统特别容易受到溶酶体功能障碍的影响,导致神经元和神经胶质功能受损,最终导致神经退行性变[20]。脂质组学分析还发现,在人类AD 脑组织和AD 小鼠模型中,三酰甘油(TG)的溶酶体降解受损[20]。因此,溶酶体功能和依赖于适当溶酶体功能的自噬等相关途径的缺陷可能广泛导致 AD的发病。

本研究比较了正常和AD样本之间溶酶体相关基因的表达差异,筛选了8个溶酶体相关基因(APP、IDS、RAB6A、MANBA、DNASE2B、RAB11FIP3、NCF4、AP1G2),构建了用于诊断的人工神经网络模型。APP在人体组织中普遍表达,在中枢神经系统中高表达。作为一种Ⅰ型跨膜蛋白,APP 通过经典的分泌、内溶酶体和循环途径进行运输。N-APP与肿瘤坏死因子受体超家族成员(TNFRSF)21结合,引发caspase激活和神经元细胞体(通过caspase-3)和轴突(通过caspase-6)的退化[21]。IDS是溶酶体降解硫酸肝素和硫酸皮肤素所需,IDS 的功能障碍会触发其底物糖胺聚糖的溶酶体积累,导致智力低下和全身症状[22]。RAB6A 是一种泛星形胶质细胞标记物,是所有星形胶质细胞特有且共有的标记物。它调节膜从高尔基体向内质网的运输,具有低的三磷酸鸟苷(GTP)酶活性,参与从高尔基体到内质网(ER)的不依赖包被蛋白复合物(COP)Ⅰ的逆行运输[23]。MANBA是从所有 N 联糖蛋白寡糖的非还原端切割单个 β 联甘露糖残基的外切糖苷酶,其缺乏会导致溶酶体功能障碍导致溶酶体贮积症[24]。DNASE2B可在酸性条件下水解DNA,活动不需要二价阳离子,在晶状体细胞分化过程中,参与核DNA的降解[25]。RAB11FIP3是一种Rab11 家族相互作用蛋白,通过参与膜的传递,作为内细胞运输的调节器,它控制细胞质的分裂[26]。NCF4(也称为 p40phox)是一种胞质蛋白,它与 NCF1 和 NCF2 一起黏附在膜还原型烟酰胺腺嘌呤二核苷酸磷酸氧化酶(NOX)2复合物成分上以诱导活性氧(ROS)反应。NCF4 是NADPH-oxidase的成分,这是一个多成分的酶系统,负责氧化爆发,其中电子从NADPH输送到分子氧,产生活性氧化剂中间体。它可能对NADPH-氧化酶复合物的组装和(或)激活很重要[27]。AP1G2在晚期内体或多囊体(MVBs)的蛋白质分拣中发挥作用[28]。

本研究筛选了8个与AD密切相关的溶酶体相关基因,其中,AP1G2、NCF4、MANBA、DNASE2B在AD中的表达显著上调,而RAB11FIP3、RAB6A、IDS、APP的表达显著下调。同时,这些关键基因的表达影响AD的免疫浸润。此外,采用随机森林(RF)和ANN方法的创新组合,在预测能力方面产生了出色的结果。其他几种疾病,包括溃疡性结肠炎、心力衰竭和多囊卵巢综合征,已经受益于这种创新的研究技术[29]。在此之前,已经开发了一些基于甲基化基因生物标志物的 AD 预测模型[30]。然而,这些研究中存在一些问题,例如样本量小或所建立模型的预测效果一般。针对这8个基因构建的人工神经网络在诊断AD方面表现出更好的价值。

本研究尚具有一定的局限性:(1)高通量测序数据具有一定的背景噪音,即使在分析前进行了批次矫正,仍需要临床试验来证明;(2)通过生物信息学及统计学方法获得8基因模型,分子机制仍需进一步通过基础实验验证。

综上,筛选了AD中最相关的8个溶酶体相关基因,采用RF和ANN机器学习算法,构建了用于诊断的人工神经网络模型,该模型具有良好诊断功效并已得到验证。此外,这8个关键基因与AD的免疫微环境密切相关,可能通过调节这些免疫细胞的功能来影响疾病的发展。希望该模型能够指导临床诊疗的发展,为探索AD的发病机制提供新视角。


基金资助:国家自然科学基金资助项目(82273742); 山西省科技厅应用基础研究计划面上项目(202103021224245);


文章来源:王远涵,赵小乐,武淑琴,等.基于溶酶体相关基因的阿尔茨海默病人工神经网络模型[J].中国老年学杂志,2024,44(19):4696-4704.

分享:

91学术论文范文

相关论文

推荐期刊

网友评论

加载更多

我要评论

中国老年学杂志

期刊名称:中国老年学杂志

期刊人气:6623

期刊详情

主管单位:中国老年学和老年医学学会

主办单位:中国老年学学会,吉林省卫生厅

出版地方:吉林

专业分类:医学

国际刊号:1005-9202

国内刊号:22-1241/R

邮发代号:12-74

创刊时间:1981年

发行周期:半月刊

期刊开本:大16开

见刊时间:7-9个月

论文导航

查看更多

相关期刊

热门论文

【91学术】(www.91xueshu.com)属于综合性学术交流平台,信息来自源互联网共享,如有版权协议请告知删除,ICP备案:冀ICP备19018493号

微信咨询

返回顶部

发布论文

上传文件

发布论文

上传文件

发布论文

您的论文已提交,我们会尽快联系您,请耐心等待!

知 道 了

登录

点击换一张
点击换一张
已经有账号?立即登录
已经有账号?立即登录

找回密码

找回密码

你的密码已发送到您的邮箱,请查看!

确 定