摘要:目的:通过整合DNA甲基组数据和转录组数据构建基于增强子的非小细胞肺癌预后风险模型。方法:使用加权基因共表达网络分析(WGCNA)从甲基化差异位点的增强子中识别非小细胞肺癌相关基因。并基于转录组数据通过LASSO-Cox回归算法构建并验证预后风险模型。结果:基于非小细胞肺癌的DNA甲基组数据分析获得了19 784个差异甲基化位点,并对其分布模式进行了表征,其中包括6 089个差异甲基化增强子位点。WGCNA从这6 089个位点筛选出79个和非小细胞肺癌高度相关的增强子位点。基于转录组数据通过LASSO-Cox回归对79个增强子位点靶基因分析,构建10个基因的预后风险模型。在训练集和验证集中分析3年、5年和10年时间依赖的受试者工作特征曲线下面积(AUC)来评估预后风险模型。结果显示,训练集和验证集中的3年、5年和10年AUC均大于0.7。最后构建预测非小细胞肺癌患者3、5、10年生存情况的列线图。结论:本研究为理解增强子在非小细胞肺癌中的作用提供了新的见解,并具有通过指导个性化治疗决策来改善患者预后的潜力。
加入收藏
肺癌是中国最常见的癌症,2022年,中国有870 982例新发肺癌病例和766 898例肺癌死亡病例[1]。非小细胞肺癌约占所有肺癌的80%~84%,包括腺癌(30%~50%)、鳞癌(20%~35%)和大细胞癌(9%)。小细胞癌约占所有肺癌16%~20%[2]。其他非小细胞肺癌亚型,如肉瘤样癌、腺鳞癌等,为少见类型。非小细胞肺癌早期(I期、II期)诊断和治疗有望获得较好的预后,然而临床上检测到I期或II期只是少部分,此时肿瘤可以手术切除,大部分非小细胞肺癌患者在诊断时已为局部晚期或转移(Ⅲ期或Ⅳ期),此时可能无法进行手术切除[3]。在哺乳动物中,DNA甲基化的主要形式是在胞嘧啶环的第5位碳原子上添加甲基[4]。DNA甲基化可引起基因调控活性的永久性或短暂性改变[5]。鉴于DNA甲基化既表现出可干预的修饰性,又表现出测量的稳定性[6],已经被广泛用于研究癌症、治疗靶点和生物标志物[7]。增强子是基因的顺式作用元件,可以位于基因的上游、下游或临近的基因内,与靶基因的距离从十万到百万个碱基不等,增强子通过与靶基因启动子相互作用、招募转录因子和共激活蛋白来促进基因转录[8]。增强子的异常在癌症的发生发展中起到重要作用[9]。越来越多的研究表明,由于癌症本身复杂性和基因间的复杂交互作用,越来越多的研究开始探索多基因的预后风险模型,仅仅在非小细胞肺癌方面就有基于基因表达的肿瘤转移风险模型[10],基于lncRNA表达的预后风险模型[11],针对肺腺癌有直接利用甲基化水平预测患者生存的模型[12],增强子作为关键的顺式作用元件,尚未见基于增强子的非小细胞肺癌预后风险模型的报道。本文基于甲基组和转 录 组 数 据 ,运 用 加 权 基 因 共 表 达 网 络 分 析(Weighted Gene Co-expression Network Analysis,WGCNA)和LASSO-Cox方法,构建基于增强子的非小细胞肺癌预后风险模型,以期为临床决策提供指导。
1、材料与方法
本研究使用WGCNA方法从基于甲基组数据的甲基化差异位点的增强子中识别非小细胞肺癌相关基因。并基于转录组数据通过LASSO-Cox回归算法构建并验证预后风险模型,同时构建和检验了生存预测列线图,具体的技术路线和方法如图1所示。
图1本研究分析过程流程图
1.1数据资源
3个 数 据 集GSE60645[13] 、GSE37745[14] 和GSE50081[15] 来 自 基 因 表 达 综 合 数 据 库(GeneExpression Omnibus, GEO)。 其 中 甲 基 组 数 据 集GSE60645剔除3个小细胞肺癌样本数据,只留下非小细胞肺癌甲基组数据。此时的甲基组数据包含12例正常肺组织和121例肿瘤组织,肿瘤组织中腺癌83例、鳞癌23例、腺鳞癌1例、大细胞癌14例。转录组数据集筛选非小细胞肺癌甲基组数据集:GSE60645,转录组数据集:GSE37745、GSE50081筛选差异甲基化位点筛选标准:甲基化差异|Δβ|>0.2且adj.P<0.05, 19784个差异甲基化位点划分转录组数据的训练集和验证集合并数据集GSE37745、GSE50081,去除批次效应、划分为训练集(n=251)和验证集(n=126)WGCNA分析筛选标准:module Cor>0.5& MM Cor>0.5 & GS >0.85,筛选相关基因和对应靶基因Lasso分析筛选标准:最佳入=0.085,在训练集中筛选候选基因独立预后分析构建预后风险模型生存分析 时间依赖ROC分析构建列线图及性能校准曲线差异甲基化位点的GO分析和KEGG通路分析整合分析构建基于增强子的非小细胞肺癌预后风险模型- 113 -数据集GSE37745和GSE50081基于同一芯片平台(Affymetrix Human Genome U133 Plus 2.0 Array),这两个数据集分别包括106例和130例腺癌,66例和43例鳞癌以及24例和8例大细胞癌病例,转录组样本都具有完整临床信息和长期随访记录。
1.2筛选差异甲基化位点
使用R包'ChAMP'对甲基组芯片数据进行筛选和注释,筛选差异甲基化位点标准为甲基化差异|beta|>0.2且调整后P值(adj.P)<0.05[16]。
1.3基因本体论
(Gene Ontology, GO)和京都基因与基因组百科全书(Kyoto Encyclopedia of Genes andGenomes, KEGG)富集分析为了研究差异甲基化位点的功能,利用R包'clusterProfiler'对差异甲基化位点进行GO分析和KEGG通路分析[17]。
1.4加权基因共表达网络的构建及相关模块的识别
对于差异甲基化位点中增强子位点,使用R包'wateRmelon'进行归一化处理,使用R包'WGCNA'进行加权基因共表达网络算法分析[18]。筛选非小细胞肺癌相关模块的标准为模块相关性(ModuleMembership, MM)>0.5且P<0.01[19]。
1.5鉴定非小细胞肺癌相关差异甲基化增强子位点靶基因
在WGCNA的候选模块中,按照基因显著性值(Gene Significance, GS)>0.5和MM>0.85的标准筛选出非小细胞肺癌相关的增强子位点。此外,每个非小细胞肺癌相关的增强子位点被注释到相应的基因[20]。
1.6特征基因的识别、验证及预后风险模型的构建
为了筛选关键基因并验证关键基因的预测能力,对GSE37745和GSE50081的377例非小细胞肺癌病例转录组数据集进行合并,使用R包'sva'去除批次效应,使用R包'caret'将这377例非小细胞肺癌病例分为训练数据集和验证数据集。在训练集中,使用R包'glmnet'和'survival'进行LASSO-Cox回归,为了选择最优 λ,进行10折交叉验证[21-22]。仅对单因素Cox回归分析中P<0.05的变量进行多因素Cox回归分析。
1.7预后风险模型评价
在训练集和验证集中依次使用R包'timeROC'进行 时 间 依 赖 的 受 试 者 工 作 特 征 曲 线(ReceiverOperating Curves, ROC)分 析[23] ,然 后 使 用R的'pROC'包进行独立的诊断ROC分析[24],使用R包'survival'进行生存分析,并通过R包'survminer'和R包'ggplot2'进行可视化,通过R包'rms'绘制列线图。
2、结 果
2.1非小细胞肺癌差异甲基化位点概况
以甲基化差异|beta|>0.2且adj.P<0.05为标准筛选得到19 784个差异甲基化位点,19 784个差异甲基化位点包括54.16%的(10 716/19 784)高甲基化位点和45.84%的(9 068/19 784)低甲基化位点。这些差异甲基化位点中增强子(Enhancer:6 089个)位点多于目前甲基化研究较多的基因体(Body:6 044个)和启动子(5'UTR:1 411个,TSS200:1 319个,TSS1500:2 388个,1stExon:892个,共6 010个)位点(图2a)。CpG岛在基因不同部位分布差异明显(图2b、c)。差异甲基化位点和差异甲基化增强子位点在(图2d、e)染色体上的分布存在明显差异,6 089个差异甲基化增强子位点中有3 523个高甲基化位点和2 566个低甲基化位点。
2.2差异甲基化位点的GO和KEGG富集分析
GO和KEGG富集分析探究差异甲基化位点的生物学功能。GO分析表明,差异甲基化位点与突触(adj.P<0.001)、发育(adj.P<0.001)、DNA结合(adj.P<0.001)等功能显著相关(图3a)。KEGG通路分析表明,差异甲基化位点主要参与Rap1信号通路(adj.P<0.001)、癌症蛋白聚糖通路(adj.P<0.01)、Hippo信号通 路(adj. P<0.01)、Wnt信 号 通 路(adj. P<0.001)、MAPK信号通路(adj.P<0.001)和多能干细胞调节信号通路(adj.P<0.001)(图3b)。
图2非小细胞肺癌差异甲基化位点分布
图3差异甲基化位点的GO和KEGG富集分析
2.3非小细胞肺癌相关模块和基因的鉴定构建
WGCNA对差异甲基化增强子位点进行分析。为了符合无标度网络的分布,根据pickSoftThreshold函数(图4a、b)分析结果,将软阈值设置为β=6(R2=0.91)。将相似模块(相关性在0.25以上)进行合并终共识别出15个模块(图4c)。深绿色模块(cor=0.77, P=4e-27)和黑色模块(cor=-0.69, P=3e-20)被筛选出来作为非小细胞肺癌相关模块(图4d、e)。
图4 WGCNA分析鉴定非小细胞肺癌相关模块
随后,基于GS>0.5和MM>0.85筛选标准,从深绿色模块和黑色模块中鉴定出79个相关的差异甲基化增强子位点(表1),这79个增强子位点对应65个靶基因。2.4筛选关键基因并构建预后模型合并来自GSE37745和GSE50081的377例非小细胞肺癌病例并去除批次效应。随后,将377例非小细胞肺癌病例分为251例训练数据集和126例验证数据集。为了构建风险模型,在训练数据集中,LASSO回归对筛选到的79个增强子位点和对应的靶基因进行进一步分析,10折交叉验证选择最小惩罚系数λ进而整合分析构建基于增强子的非小细胞肺癌预后风险模型实现变量选择(图5a),最优λ=0.085从而得到14个基因(图5b)。进一步对这14个基因进行Cox回归分析,10个单因素Cox回归分析中P<0.05的基因被用于构建风险模型(表2)。基于多因素Cox回归分析整合分析构建基于增强子的非小细胞肺癌预后风险模型- 117 -的预后风险分值(Risk Score, RS)模型如下:RS=9.6978-LRBA×0.1525+DNAAF5×0.3956+ERMP1×0.1187-ITPKB×0.3915-LNX1×0.2544+CMIP×0.1989-IQSEC1×0.8306-CCNP×0.6923+PINX1×0.2548+SLC2A9×0.1108。风险因子图显示该模型能较好地区分高低风险人群(图5c)。
表1 WGCNA分析鉴定的非小细胞肺癌相关差异
图5 LASSO-Cox回归构建预后风险模型
2.5预后风险模型
在训练集和验证集中的表现在训练集中,总生存预后风险模型的风险比(Hazard Ratio, HR)为2.88(95%CI:2.04~4.07),见图6a。基于RS的总生存预后风险模型(0.751)的ROC曲线下 面 积(Area Under Curve, AUC)优 于 基 于 年 龄(0.646)、性别(0.524)、分期(0.611)、组织学(0.552)等模型的表现(图6b)。3年、5年和10年生存率预后风险模型的AUC分别为0.735、0.725和0.751(图6c)。在验证集中,总生存预后风险模型的HR为2.71(95%C:1.64~4.48)(图6d)。基于RS的总生存预后风险模型的AUC(0.704)优于基于年龄(0.685)、性别(0.527)、分期(0.627)、组织学(0.526)的表现(图6e)。
表2预后风险模型的10个基因详细信息
图6预后风险模型验证F
整合分析构建基于增强子的非小细胞肺癌预后风险模型- 119 -3年、5年和10年生存率预后风险模型的AUC分别为0.732、0.717和0.702(图6f)。基于377例非小细胞肺癌病例构建了包括年龄、性别、分期和RS的列线图,以预测3年、5年和10年总生存情况(图7a)。校准曲线均接近参考理想预测模型线(图7b)。0.8 0.6 0.4 0.20.8 0.6 0.4 0.20.8 0.6 0.4 0.2-2.5 -1.5 -0.5 0.5 1.5 2.50 20 40 60 80 100 120-2 -1 0 1 20 20 40 60 80 10035 45 55 65 75 85femalemaleⅠⅡⅢⅣ1.00.80.60.40.20.00.0 0.2 0.4 0.6 0.8 1.0列线图预测生存概率3-Year5-Year10-YearIdeal line实际观测生存概率a:预后列线图b:列线图校准曲线图7列线图和校准曲线
3、讨 论
目前,基因芯片和测序已广泛应用于非小细胞肺癌研究,但这些研究中专门针对非小细胞肺癌增强子作用的研究较少。笔者对非小细胞肺癌样本中的甲基组数据和转录数据进行整合分析。通过肿瘤和正常样本的比较,筛选到19 784个差异甲基化位点,并分析了它们的全基因组分布。GO和KEGG富集分析显示,这些差异甲基化位点涉及Rap1信号通路、癌症中的蛋白聚糖通路、Hippo信号通路、Wnt信号通路、MAPK信号通路和调节干细胞多能性的信号通路。有研究显示调控Rap1信号通路可以抑制非小细胞肺癌的转移[25]。靶向Wnt和Hippo信号之间的YAP1串话可以在非小细胞肺癌中产生治疗作用[26]。激活Ras/MAPK通路会促进非小细胞肺癌的增殖和迁移[27]。作为一种动态的基因调控机制,DNA甲基化的证据大多局限于特定的例子[28]。总的来说,DNA高甲基化抑制转录起始并进一步下调基因表达[29]。然而,一些研究表明,DNA甲基化可能并不总是起抑制作用,体内和体外试验表明,高甲基化的增强子可以允许转录[30],因此增强子在非小细胞肺癌中的作用远未被完全了解。笔者接下来对19 784个差异甲基化位点作进一步分析,筛选出其中的6 089个增强子位点,通过WGCNA分析,笔者从6 089个增强子位点筛选得到79个增强子位点。考虑到非小细胞肺癌的复杂性和非小细胞肺癌相关基因的交互作用,本研究旨在整合多个基因和相应的系数,构建非小细胞肺癌的预后风险模型,而不是聚焦于单个基因。因此,对这些增强子位点对应的基因进行LASSO-Cox回归分析,构建了一个包含10个基因和相应系数的预后风险模型,该模型在训练集和验证集中均有较好表现。最后构建预测生存情况的列线图,校准曲线显示列线图有较好的预测性能。实际上这10个基因中,文献报道LRBA基因调节内体运输,特别是配体激活受体的内吞作用[31],LRBA与CTLA4基因共定位于内体囊泡,参与调节CTLA4的表达[32]。DNAAF5基因促进肝细胞癌的发展[33]。ERMP1基因的上调在人类癌症中很常见[34],在乳腺癌细胞中发现ERMP1基因过表达[35]。ITPKB基因在肺癌组织中表达下调[36]。CMIP基因激活MAPK/ERK信号通路,进一步促进肺腺癌的增殖和转移[37]。CMIP基因在胃癌中也是一个已知的癌基因[38]。IQSEC1基因与许多致癌信号通路相互作用,如RAF、mTORC2和NFkB;IQSEC1基因的过表达与肿瘤的发生有关[39]。CCNP在结肠癌和肺癌中过表达[40-41]。在乳腺癌、肺癌和结直肠癌中,CCNP基因上调多能性(SOX2、OCT4、NANOG)标志物的表达,并促进球体形成和干性[42]。在人类乳腺癌中,PINX1基因通过抑制NF-kB/MMP-9信号通路抑制侵袭和转移[43]。PINX1基因也是非小细胞肺癌中潜在的预后因子[44]。SLC2A9基因与血尿酸浓度相关,是肺腺癌的诊断标志物和治疗靶点之一[45]。这10个基因与多个癌症的发生发展有密切联系,理论上作为非小细胞肺癌的预后风险模型构成因素是合理的,值得进一步的研究。本研究存在一些局限性。首先,在该数据集中,非小细胞肺癌的亚型分布不平衡。其次,预后风险模型基于甲基组数据进行构建,并在转录组数据进行验证,但未在缺乏临床信息的甲基组数据进行验证。第三,本研究的风险模型是基于数据构建,分析结果有待实验验证。
综 上 所 述 ,本 研 究 采 用 整 合DNA甲 基 组 和mRNA转录组数据来构建基于增强子的非小细胞肺癌预后风险模型。预后风险模型对非小细胞肺癌的预后风险判断具有潜在的临床应用价值。
基金资助:国家自然科学基金(82127807);上海市分子影像学重点实验室建设项目(18DZ2260400);
文章来源:张伟国,陆秀宏,黄钢,等.整合分析构建基于增强子的非小细胞肺癌预后风险模型[J].中国医学物理学杂志,2025,42(01):112-121.
分享:
目前针对中晚期肺鳞癌仍缺乏可靠的治疗对策。临床主要采取化疗,通过专门的药物杀灭肿瘤细胞以缓解临床症状及延长生存时间。化疗药物多种多样,虽然许多化疗药物对肿瘤的杀灭效果较好,但不良反应也比较突出[3]。紫杉醇加铂类一线治疗,如紫杉醇+顺铂既往被广泛用于控制肺鳞癌进展,但不良反应明显,对疾病进展抑制效果欠佳[4]。
2025-08-22妇科恶性肿瘤是严重威胁女性健康的主要疾病之一,其发病率和病死率在全球范围内居高不下[1]。尽管近年来妇科肿瘤的诊疗水平取得了显著提升,但晚期患者的生存预后仍不理想,尤其是复发及耐药患者的治疗选择十分有限。目前,随着精准医学的发展,靶向治疗已成为改善妇科肿瘤预后的关键策略。
2025-07-24在肿瘤标记物SERS免疫分析结构中,“抗体—抗原SERS探针”的夹心检测结构是最典型的一种[11]。SERS探针由内到外依次为:金纳米颗粒(Aunanoparticles,AuNPs)作为拉曼增强介质[12],具有明显拉曼信号的拉曼分子,以及可特异性捕获目标抗原的抗体。SERS信号的强度取决于被吸附的SERS探针的数量,而这又取决于被吸附的抗原的数量。
2025-06-16食管癌最常见的病理类型是鳞癌和腺癌,其中我国的食管癌病理类型以鳞癌居多。临床上患者常因进食哽噎及吞咽不适就诊[3]。食管癌的治疗以手术和化疗为主[4-5]。有研究表明食管鳞癌术后辅助化疗可延长患者的无病生存期,总生存期则无明显改善[6]。
2025-05-21癌胚抗原(CEA)、糖类抗原199(CA199)、糖类抗原125(CA125)和人附睾蛋白4(HE4)作为现如今应用较广泛的血清肿瘤标志物,在EOC的早期诊断、临床分期和预后评估等方面均发挥了重要作用[3⁃4]。近年来相关研究也指出[5],肿瘤的影像学特征可能与血清肿瘤标志物存在一定关联。但目前关于EOC患者CT特征与血清肿瘤标志物的关系尚未统一定论。
2025-04-27肺癌中非小细胞肺癌(NSCLC)占80%~85%,包括鳞癌和腺癌等组织亚型,有75%的NSCLC患者在诊断之初就发生了转移和浸润,平均生存期仅为2年。虽然目前有多种新的治疗方法引入临床,但NSCLC的5年生存率仅为15%〔2〕。因此寻找有效的预后预测指标和治疗靶点显得至关重要。
2025-03-12Grogg等[4]报道的110例LELGC中,未有1例同时出现EBV阳性和MSI-High,这与其他病例报道的结果一致,提示了EBV感染和MSI-High可能是参与LELGC不相关的两个病因通路,但是无论哪种亚型,LELGC都会出现淋巴细胞的广泛浸润,可能与患者预后较好有关。
2025-02-25肺癌是中国最常见的癌症,2022 年,中国有870 982 例新发肺癌病例和 766 898 例肺癌死亡病。非小细胞肺癌约占所有肺癌的 80%~84%,包括腺癌(30%~50%)、鳞癌(20%~35%)和大细胞癌(9%)。小细胞癌约占所有肺癌16%~20%。其他非小细胞肺癌亚型,如肉瘤样癌、腺鳞癌等,为少见类型。
2025-01-21肺癌死亡人数占全球死亡总人数的 18% ,而非小细胞肺癌(NSCLC)患病人数占肺癌患病人数的 85% 左右。 目前治疗早期 NSCLC 的有效手段仍然是手术联合辅助治疗如免疫、化疗等治疗方式,与单纯手术治疗相比,外科手术联合围术期免疫治疗和化疗在延长患者总生存期方面具有显著优势。
2024-12-23软骨肉瘤 (chondrosarcoma) 是一种以产生软骨基质为特征的恶性骨肿瘤。其发病率仅次于骨肉瘤,占恶性骨肿瘤的 17%~24%。骨盆是最常见的发病部位,占到全部患者的 22%~39%。软骨肉瘤分为多种亚型,经典型软骨肉瘤最常见,约占 90% 以上。根据病理分类,骨盆软骨肉瘤可分为 Ⅰ~Ⅲ 级。
2024-11-21我要评论
期刊名称:中国医学物理学杂志
期刊人气:1248
主管单位:南方医科大学
主办单位:南方医科大学,中国医学物理学会
出版地方:广东
专业分类:医学
国际刊号:1005-202X
国内刊号:44-1351/R
邮发代号:46-259
创刊时间:1983年
发行周期:月刊
期刊开本:大16开
见刊时间:1年以上
影响因子:0.910
影响因子:0.481
影响因子:0.732
影响因子:1.156
影响因子:0.189
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!