91学术服务平台

您好,欢迎来到91学术官网!站长邮箱:91xszz@sina.com

发布论文

论文咨询

整合分析构建基于增强子的非小细胞肺癌预后风险模型

  2025-01-21    104  上传者:管理员

摘要:目的:通过整合DNA甲基组数据和转录组数据构建基于增强子的非小细胞肺癌预后风险模型。方法:使用加权基因共表达网络分析(WGCNA)从甲基化差异位点的增强子中识别非小细胞肺癌相关基因。并基于转录组数据通过LASSO-Cox回归算法构建并验证预后风险模型。结果:基于非小细胞肺癌的DNA甲基组数据分析获得了19 784个差异甲基化位点,并对其分布模式进行了表征,其中包括6 089个差异甲基化增强子位点。WGCNA从这6 089个位点筛选出79个和非小细胞肺癌高度相关的增强子位点。基于转录组数据通过LASSO-Cox回归对79个增强子位点靶基因分析,构建10个基因的预后风险模型。在训练集和验证集中分析3年、5年和10年时间依赖的受试者工作特征曲线下面积(AUC)来评估预后风险模型。结果显示,训练集和验证集中的3年、5年和10年AUC均大于0.7。最后构建预测非小细胞肺癌患者3、5、10年生存情况的列线图。结论:本研究为理解增强子在非小细胞肺癌中的作用提供了新的见解,并具有通过指导个性化治疗决策来改善患者预后的潜力。

  • 关键词:
  • 加权基因共表达网络分析
  • 增强子
  • 甲基化
  • 非小细胞肺癌
  • 预后
  • 加入收藏

肺癌是中国最常见的癌症,2022年,中国有870 982例新发肺癌病例和766 898例肺癌死亡病例[1]。非小细胞肺癌约占所有肺癌的80%~84%,包括腺癌(30%~50%)、鳞癌(20%~35%)和大细胞癌(9%)。小细胞癌约占所有肺癌16%~20%[2]。其他非小细胞肺癌亚型,如肉瘤样癌、腺鳞癌等,为少见类型。非小细胞肺癌早期(I期、II期)诊断和治疗有望获得较好的预后,然而临床上检测到I期或II期只是少部分,此时肿瘤可以手术切除,大部分非小细胞肺癌患者在诊断时已为局部晚期或转移(Ⅲ期或Ⅳ期),此时可能无法进行手术切除[3]。在哺乳动物中,DNA甲基化的主要形式是在胞嘧啶环的第5位碳原子上添加甲基[4]。DNA甲基化可引起基因调控活性的永久性或短暂性改变[5]。鉴于DNA甲基化既表现出可干预的修饰性,又表现出测量的稳定性[6],已经被广泛用于研究癌症、治疗靶点和生物标志物[7]。增强子是基因的顺式作用元件,可以位于基因的上游、下游或临近的基因内,与靶基因的距离从十万到百万个碱基不等,增强子通过与靶基因启动子相互作用、招募转录因子和共激活蛋白来促进基因转录[8]。增强子的异常在癌症的发生发展中起到重要作用[9]。越来越多的研究表明,由于癌症本身复杂性和基因间的复杂交互作用,越来越多的研究开始探索多基因的预后风险模型,仅仅在非小细胞肺癌方面就有基于基因表达的肿瘤转移风险模型[10],基于lncRNA表达的预后风险模型[11],针对肺腺癌有直接利用甲基化水平预测患者生存的模型[12],增强子作为关键的顺式作用元件,尚未见基于增强子的非小细胞肺癌预后风险模型的报道。本文基于甲基组和转 录 组 数 据 ,运 用 加 权 基 因 共 表 达 网 络 分 析(Weighted Gene Co-expression Network Analysis,WGCNA)和LASSO-Cox方法,构建基于增强子的非小细胞肺癌预后风险模型,以期为临床决策提供指导。


1、材料与方法


本研究使用WGCNA方法从基于甲基组数据的甲基化差异位点的增强子中识别非小细胞肺癌相关基因。并基于转录组数据通过LASSO-Cox回归算法构建并验证预后风险模型,同时构建和检验了生存预测列线图,具体的技术路线和方法如图1所示。

图1本研究分析过程流程图

1.1数据资源

3个 数 据 集GSE60645[13] 、GSE37745[14] 和GSE50081[15] 来 自 基 因 表 达 综 合 数 据 库(GeneExpression Omnibus, GEO)。 其 中 甲 基 组 数 据 集GSE60645剔除3个小细胞肺癌样本数据,只留下非小细胞肺癌甲基组数据。此时的甲基组数据包含12例正常肺组织和121例肿瘤组织,肿瘤组织中腺癌83例、鳞癌23例、腺鳞癌1例、大细胞癌14例。转录组数据集筛选非小细胞肺癌甲基组数据集:GSE60645,转录组数据集:GSE37745、GSE50081筛选差异甲基化位点筛选标准:甲基化差异|Δβ|>0.2且adj.P<0.05, 19784个差异甲基化位点划分转录组数据的训练集和验证集合并数据集GSE37745、GSE50081,去除批次效应、划分为训练集(n=251)和验证集(n=126)WGCNA分析筛选标准:module Cor>0.5& MM Cor>0.5 & GS >0.85,筛选相关基因和对应靶基因Lasso分析筛选标准:最佳入=0.085,在训练集中筛选候选基因独立预后分析构建预后风险模型生存分析 时间依赖ROC分析构建列线图及性能校准曲线差异甲基化位点的GO分析和KEGG通路分析整合分析构建基于增强子的非小细胞肺癌预后风险模型- 113 -数据集GSE37745和GSE50081基于同一芯片平台(Affymetrix Human Genome U133 Plus 2.0 Array),这两个数据集分别包括106例和130例腺癌,66例和43例鳞癌以及24例和8例大细胞癌病例,转录组样本都具有完整临床信息和长期随访记录。

1.2筛选差异甲基化位点

使用R包'ChAMP'对甲基组芯片数据进行筛选和注释,筛选差异甲基化位点标准为甲基化差异|beta|>0.2且调整后P值(adj.P)<0.05[16]。

1.3基因本体论

(Gene Ontology, GO)和京都基因与基因组百科全书(Kyoto Encyclopedia of Genes andGenomes, KEGG)富集分析为了研究差异甲基化位点的功能,利用R包'clusterProfiler'对差异甲基化位点进行GO分析和KEGG通路分析[17]。

1.4加权基因共表达网络的构建及相关模块的识别

对于差异甲基化位点中增强子位点,使用R包'wateRmelon'进行归一化处理,使用R包'WGCNA'进行加权基因共表达网络算法分析[18]。筛选非小细胞肺癌相关模块的标准为模块相关性(ModuleMembership, MM)>0.5且P<0.01[19]。

1.5鉴定非小细胞肺癌相关差异甲基化增强子位点靶基因

在WGCNA的候选模块中,按照基因显著性值(Gene Significance, GS)>0.5和MM>0.85的标准筛选出非小细胞肺癌相关的增强子位点。此外,每个非小细胞肺癌相关的增强子位点被注释到相应的基因[20]。

1.6特征基因的识别、验证及预后风险模型的构建

为了筛选关键基因并验证关键基因的预测能力,对GSE37745和GSE50081的377例非小细胞肺癌病例转录组数据集进行合并,使用R包'sva'去除批次效应,使用R包'caret'将这377例非小细胞肺癌病例分为训练数据集和验证数据集。在训练集中,使用R包'glmnet'和'survival'进行LASSO-Cox回归,为了选择最优 λ,进行10折交叉验证[21-22]。仅对单因素Cox回归分析中P<0.05的变量进行多因素Cox回归分析。

1.7预后风险模型评价

在训练集和验证集中依次使用R包'timeROC'进行 时 间 依 赖 的 受 试 者 工 作 特 征 曲 线(ReceiverOperating Curves, ROC)分 析[23] ,然 后 使 用R的'pROC'包进行独立的诊断ROC分析[24],使用R包'survival'进行生存分析,并通过R包'survminer'和R包'ggplot2'进行可视化,通过R包'rms'绘制列线图。


2、结 果


2.1非小细胞肺癌差异甲基化位点概况

以甲基化差异|beta|>0.2且adj.P<0.05为标准筛选得到19 784个差异甲基化位点,19 784个差异甲基化位点包括54.16%的(10 716/19 784)高甲基化位点和45.84%的(9 068/19 784)低甲基化位点。这些差异甲基化位点中增强子(Enhancer:6 089个)位点多于目前甲基化研究较多的基因体(Body:6 044个)和启动子(5'UTR:1 411个,TSS200:1 319个,TSS1500:2 388个,1stExon:892个,共6 010个)位点(图2a)。CpG岛在基因不同部位分布差异明显(图2b、c)。差异甲基化位点和差异甲基化增强子位点在(图2d、e)染色体上的分布存在明显差异,6 089个差异甲基化增强子位点中有3 523个高甲基化位点和2 566个低甲基化位点。

2.2差异甲基化位点的GO和KEGG富集分析

GO和KEGG富集分析探究差异甲基化位点的生物学功能。GO分析表明,差异甲基化位点与突触(adj.P<0.001)、发育(adj.P<0.001)、DNA结合(adj.P<0.001)等功能显著相关(图3a)。KEGG通路分析表明,差异甲基化位点主要参与Rap1信号通路(adj.P<0.001)、癌症蛋白聚糖通路(adj.P<0.01)、Hippo信号通 路(adj. P<0.01)、Wnt信 号 通 路(adj. P<0.001)、MAPK信号通路(adj.P<0.001)和多能干细胞调节信号通路(adj.P<0.001)(图3b)。

图2非小细胞肺癌差异甲基化位点分布

图3差异甲基化位点的GO和KEGG富集分析

2.3非小细胞肺癌相关模块和基因的鉴定构建

WGCNA对差异甲基化增强子位点进行分析。为了符合无标度网络的分布,根据pickSoftThreshold函数(图4a、b)分析结果,将软阈值设置为β=6(R2=0.91)。将相似模块(相关性在0.25以上)进行合并终共识别出15个模块(图4c)。深绿色模块(cor=0.77, P=4e-27)和黑色模块(cor=-0.69, P=3e-20)被筛选出来作为非小细胞肺癌相关模块(图4d、e)。

图4 WGCNA分析鉴定非小细胞肺癌相关模块

随后,基于GS>0.5和MM>0.85筛选标准,从深绿色模块和黑色模块中鉴定出79个相关的差异甲基化增强子位点(表1),这79个增强子位点对应65个靶基因。2.4筛选关键基因并构建预后模型合并来自GSE37745和GSE50081的377例非小细胞肺癌病例并去除批次效应。随后,将377例非小细胞肺癌病例分为251例训练数据集和126例验证数据集。为了构建风险模型,在训练数据集中,LASSO回归对筛选到的79个增强子位点和对应的靶基因进行进一步分析,10折交叉验证选择最小惩罚系数λ进而整合分析构建基于增强子的非小细胞肺癌预后风险模型实现变量选择(图5a),最优λ=0.085从而得到14个基因(图5b)。进一步对这14个基因进行Cox回归分析,10个单因素Cox回归分析中P<0.05的基因被用于构建风险模型(表2)。基于多因素Cox回归分析整合分析构建基于增强子的非小细胞肺癌预后风险模型- 117 -的预后风险分值(Risk Score, RS)模型如下:RS=9.6978-LRBA×0.1525+DNAAF5×0.3956+ERMP1×0.1187-ITPKB×0.3915-LNX1×0.2544+CMIP×0.1989-IQSEC1×0.8306-CCNP×0.6923+PINX1×0.2548+SLC2A9×0.1108。风险因子图显示该模型能较好地区分高低风险人群(图5c)。

表1 WGCNA分析鉴定的非小细胞肺癌相关差异

图5 LASSO-Cox回归构建预后风险模型

2.5预后风险模型

在训练集和验证集中的表现在训练集中,总生存预后风险模型的风险比(Hazard Ratio, HR)为2.88(95%CI:2.04~4.07),见图6a。基于RS的总生存预后风险模型(0.751)的ROC曲线下 面 积(Area Under Curve, AUC)优 于 基 于 年 龄(0.646)、性别(0.524)、分期(0.611)、组织学(0.552)等模型的表现(图6b)。3年、5年和10年生存率预后风险模型的AUC分别为0.735、0.725和0.751(图6c)。在验证集中,总生存预后风险模型的HR为2.71(95%C:1.64~4.48)(图6d)。基于RS的总生存预后风险模型的AUC(0.704)优于基于年龄(0.685)、性别(0.527)、分期(0.627)、组织学(0.526)的表现(图6e)。

表2预后风险模型的10个基因详细信息

图6预后风险模型验证F

整合分析构建基于增强子的非小细胞肺癌预后风险模型- 119 -3年、5年和10年生存率预后风险模型的AUC分别为0.732、0.717和0.702(图6f)。基于377例非小细胞肺癌病例构建了包括年龄、性别、分期和RS的列线图,以预测3年、5年和10年总生存情况(图7a)。校准曲线均接近参考理想预测模型线(图7b)。0.8 0.6 0.4 0.20.8 0.6 0.4 0.20.8 0.6 0.4 0.2-2.5 -1.5 -0.5 0.5 1.5 2.50 20 40 60 80 100 120-2 -1 0 1 20 20 40 60 80 10035 45 55 65 75 85femalemaleⅠⅡⅢⅣ1.00.80.60.40.20.00.0 0.2 0.4 0.6 0.8 1.0列线图预测生存概率3-Year5-Year10-YearIdeal line实际观测生存概率a:预后列线图b:列线图校准曲线图7列线图和校准曲线


3、讨 论


目前,基因芯片和测序已广泛应用于非小细胞肺癌研究,但这些研究中专门针对非小细胞肺癌增强子作用的研究较少。笔者对非小细胞肺癌样本中的甲基组数据和转录数据进行整合分析。通过肿瘤和正常样本的比较,筛选到19 784个差异甲基化位点,并分析了它们的全基因组分布。GO和KEGG富集分析显示,这些差异甲基化位点涉及Rap1信号通路、癌症中的蛋白聚糖通路、Hippo信号通路、Wnt信号通路、MAPK信号通路和调节干细胞多能性的信号通路。有研究显示调控Rap1信号通路可以抑制非小细胞肺癌的转移[25]。靶向Wnt和Hippo信号之间的YAP1串话可以在非小细胞肺癌中产生治疗作用[26]。激活Ras/MAPK通路会促进非小细胞肺癌的增殖和迁移[27]。作为一种动态的基因调控机制,DNA甲基化的证据大多局限于特定的例子[28]。总的来说,DNA高甲基化抑制转录起始并进一步下调基因表达[29]。然而,一些研究表明,DNA甲基化可能并不总是起抑制作用,体内和体外试验表明,高甲基化的增强子可以允许转录[30],因此增强子在非小细胞肺癌中的作用远未被完全了解。笔者接下来对19 784个差异甲基化位点作进一步分析,筛选出其中的6 089个增强子位点,通过WGCNA分析,笔者从6 089个增强子位点筛选得到79个增强子位点。考虑到非小细胞肺癌的复杂性和非小细胞肺癌相关基因的交互作用,本研究旨在整合多个基因和相应的系数,构建非小细胞肺癌的预后风险模型,而不是聚焦于单个基因。因此,对这些增强子位点对应的基因进行LASSO-Cox回归分析,构建了一个包含10个基因和相应系数的预后风险模型,该模型在训练集和验证集中均有较好表现。最后构建预测生存情况的列线图,校准曲线显示列线图有较好的预测性能。实际上这10个基因中,文献报道LRBA基因调节内体运输,特别是配体激活受体的内吞作用[31],LRBA与CTLA4基因共定位于内体囊泡,参与调节CTLA4的表达[32]。DNAAF5基因促进肝细胞癌的发展[33]。ERMP1基因的上调在人类癌症中很常见[34],在乳腺癌细胞中发现ERMP1基因过表达[35]。ITPKB基因在肺癌组织中表达下调[36]。CMIP基因激活MAPK/ERK信号通路,进一步促进肺腺癌的增殖和转移[37]。CMIP基因在胃癌中也是一个已知的癌基因[38]。IQSEC1基因与许多致癌信号通路相互作用,如RAF、mTORC2和NFkB;IQSEC1基因的过表达与肿瘤的发生有关[39]。CCNP在结肠癌和肺癌中过表达[40-41]。在乳腺癌、肺癌和结直肠癌中,CCNP基因上调多能性(SOX2、OCT4、NANOG)标志物的表达,并促进球体形成和干性[42]。在人类乳腺癌中,PINX1基因通过抑制NF-kB/MMP-9信号通路抑制侵袭和转移[43]。PINX1基因也是非小细胞肺癌中潜在的预后因子[44]。SLC2A9基因与血尿酸浓度相关,是肺腺癌的诊断标志物和治疗靶点之一[45]。这10个基因与多个癌症的发生发展有密切联系,理论上作为非小细胞肺癌的预后风险模型构成因素是合理的,值得进一步的研究。本研究存在一些局限性。首先,在该数据集中,非小细胞肺癌的亚型分布不平衡。其次,预后风险模型基于甲基组数据进行构建,并在转录组数据进行验证,但未在缺乏临床信息的甲基组数据进行验证。第三,本研究的风险模型是基于数据构建,分析结果有待实验验证。

综 上 所 述 ,本 研 究 采 用 整 合DNA甲 基 组 和mRNA转录组数据来构建基于增强子的非小细胞肺癌预后风险模型。预后风险模型对非小细胞肺癌的预后风险判断具有潜在的临床应用价值。


基金资助:国家自然科学基金(82127807);上海市分子影像学重点实验室建设项目(18DZ2260400);


文章来源:张伟国,陆秀宏,黄钢,等.整合分析构建基于增强子的非小细胞肺癌预后风险模型[J].中国医学物理学杂志,2025,42(01):112-121.

分享:

91学术论文范文

相关论文

推荐期刊

网友评论

加载更多

我要评论

中国医学物理学杂志

期刊名称:中国医学物理学杂志

期刊人气:1248

期刊详情

主管单位:南方医科大学

主办单位:南方医科大学,中国医学物理学会

出版地方:广东

专业分类:医学

国际刊号:1005-202X

国内刊号:44-1351/R

邮发代号:46-259

创刊时间:1983年

发行周期:月刊

期刊开本:大16开

见刊时间:1年以上

论文导航

查看更多

相关期刊

热门论文

【91学术】(www.91xueshu.com)属于综合性学术交流平台,信息来自源互联网共享,如有版权协议请告知删除,ICP备案:冀ICP备19018493号

微信咨询

返回顶部

发布论文

上传文件

发布论文

上传文件

发布论文

您的论文已提交,我们会尽快联系您,请耐心等待!

知 道 了

登录

点击换一张
点击换一张
已经有账号?立即登录
已经有账号?立即登录

找回密码

找回密码

你的密码已发送到您的邮箱,请查看!

确 定