摘要:目的:基于公共数据库的前列腺癌数据,通过机器学习的方法构建模型来预测前列腺癌复发。方法:下载前列腺癌RNA测序数据以及临床数据,对前列腺基因以及临床数据进行处理,筛选前列腺复发相关特征基因,建立相关模型,并对模型效能进行验证。在默认参数下比较随机森林、支持向量机(径向核、线性核、二项式核、sigmoid核)、和梯度下降树这5个模型预测效果并选取具有较高效能的模型进行进一步验证。结果:总共获得148个复发差异基因,根据重要性筛选5个基因构建预测模型。基于这些基因使用不同的方法构建的模型均具有较好的精确度和准确度,其中随机森林法构建的模型最佳,其预测前列腺癌复发的准确度为87%,受试者工作特征曲线下面积为0.84。结论:通过基因表达数据构建机器学习模型能够较好地来预测前列腺癌的复发。
加入收藏
前列腺癌(prostate cancer, PCa)是男性最常见的泌尿系肿瘤之一,在欧美等发达国家更是仅次于肺癌的第二大恶性肿瘤[1]。随着我国居民生活水平的逐步提高,体检意识日益增强,PCa在我国的发病率也在逐年提高,目前已上升为第六名。同时由于人们对PCa重视程度逐渐加深,越来越多的患者能够在早期发现并接受手术治疗,PCa的死亡率也逐年在下降[2]。根治性前列腺切除术是早期PCa最有效的治疗方法,然而在接受该手术的患者中有20%~40%会出现复发,前列腺特异性抗原(prostate specific antigen, PSA)升高通常作为首发的临床指征,又被称为生化复发。由于PCa术后随访不及时以及检查的局限性,许多复发的PCa患者未能及时发现,耽误了治疗时机[3]。同时PCa的复发受很多因素影响,迄今为止还没有任何一种单一的生物标志物,或者任何基因表达分子能够准确预测PCa的复发,因此迫切需要建立多因素的预测模型。
现如今,基因测序工程发展迅速,TCGA和GTEx等数据库随之建立。这些数据库包含各种类型肿瘤和正常组织的基因和蛋白表达情况以及临床信息,研究人员可以对这些数据进行挖掘和分析[4]。同时,由于近些年人工智能的迅猛发展和机器学习方法的日渐成熟,这使得大数据的深度分析与挖掘成为可能,目前在医学领域得到了广泛的应用。使用机器学习建立模型对PCa生化复发进行预测,不仅可以使临床医生避免机械、烦琐的数据分析工作,也有助于患者有目的地预防和及时地干预治疗,对于降低PCa死亡率具有重要的现实意义[5]。
本研究尝试筛选PCa复发相关的多个基因,构建生化非复发PCa与生化复发PCa的分类模型。然后借助机器算法学习通过筛选的特征基因对PCa的复发预测,来实现PCa生化复发新模型的构建。
1、资料与方法
1.1数据来源
从UCSCXena(https: //xenabrowser.net/)网站下载TCGA Hub中的PCa基因表达的数据,数据集ID为TCGA-PRAD.htseq_counts.tsv;随后下载GCD Hub中的前PCa表型和生存数据,数据集ID分别为TCGA-PRAD.GDC_phenotype.tsv和TCGA-PRAD.survival.tsv[6]。最终删除无效数据后得到包含498例样本的原始文件,其中无复发患者228例,复发患者187例,复发状况不明患者83例,重复样本1例。原始基因测序数据共包含Ensembl ID格式表示的基因60 484个,首先利用Biomart工具将Ensembl ID格式转换为Official Symbol格式,共得到19 754个OfficialSymbol类型的基因。由于部分基因在所有样本中低表达,我们采用在一半的样本中的基因表达量低于1作为阈值对基因进行过滤,共得到17 485个基因。最终,将复发状况明确的414例患者的17 485个基因纳入后续分析。
1.2计算差异基因和选取关键基因
我们将log2FC的绝对值设置为1.5,FDR设置为0.05,使用limma包和R语言初步筛选非复发组和复发组中的表达差异的基因[7]。接下来将所有患者随机编码,按照7∶3分为训练集和测试集。其中训练集包含复发患者131例,无复发患者158例,测试集包含复发患者56例,无复发患者69例。对所有差异基因表达数据进行归一化处理,在训练集中利用梯度下降树算法计算各个基因对分组的重要性。梯度下降树算法通过迭代地训练决策树来最小化一个可微分的损失函数,在这其中每一个决策新树都试图纠正前一轮迭代中的残差[8]。特征重要性通常是指在构建这些决策树时,各个特征对于模型预测的贡献度。在本次研究中的特征即为基因的表达情况。特征选择之后,亦即关键基因选择之后,利用相关性热图计算基因之间的相关性,筛除掉相关性太大(>0.6)的基因,避免后续处理中的共线性效应。最终,筛选重要性排名靠前的几个基因,利用这些基因通过机器学习算法进行下一步的建模。
1.3构建基本模型
初步纳入分析的建模方法有随机森林、支持向量机(径向核、线性核、二项式核、sigmoid核)和梯度下降算法。随机森林算法是在经典分类方法决策树法的基础上进行的一种算法,它包含多个决策树的分类器[8]。具体而言,从训练集据集中抽取样本,构建子数据集并新建一个决策树。在各个节点随机选部分特征进行分裂并不断重复,直至足够的决策树水平。支持向量机算法是一种按照监督学习的方式对数据进行二元分类的广义线性分类算法,其稀疏性和稳定性的特点使其具有良好的泛化能力[8]。具体而言,对训练集样本进行分割(线性可分、线性不可分以及近似线性可分),学习不同的向量机(径向核、线性核、二项式核、sigmoid核),实现对是否复发的判断。梯度下降算法已在上一部分进行了充分解释,不再具体展开描述。
1.4验证模型效果
对于不同的模型,我们采用准确度(Accuracy)、精确度(Precision)、召回率(Recall)和F1-score等指标来评估模型的效能。其中,准确度表示模型预测正确的数量占样本总量的比例,精确度表示被模型识别正确的正样本占所有预测正样本的比例,召回率表示被模型识别正确的正样本占所有实际正样本的比例,F1-score是精确度和召回率的加权调和平均,可以用来评估分类模型的总体效果。在测试集中,分别计算各种模型的指标,选择最佳的模型进行进一步的效果验证。
1.5检验随机森林的预测效果
我们分别使用ROC曲线和混淆矩阵来判断模型效果。受试者工作特征(receiver operator characteristic, ROC)曲线的横坐标为假阳性率,纵坐标为真阳性率,曲线下面积(area under the curve, AUC)值越大,说明该模型的性能越好。混淆矩阵每一列的总数表示预测为该类别的数据的数目;每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的数据实例的数目。
1.6数据处理
本研究所有的差异基因的计算采用R语言完成,其余分析在python3.6语言环境下进行,环境同时配有scikit learn数据分析包和numpy、pandas、matplotlib等数据处理和可视化模块。以P<0.05为差异有统计学意义。
2、结果
2.1差异基因的可视化
我们使用火山图来对差异基因进行可视化。如图1所示,PCa非复发组和复发组的差异基因共148个,在复发组中上调的基因有43个,在复发组中下调的基因有个105。
图1 2组差异基因的情况
注:红色表明在复发组显著下调的基因;灰色表明在2组间没有显著变化的基因;蓝色表明在复发组显著上调的基因。
2.2特征基因的选取结果
接下来利用梯度下降树算法在测试集中对筛选的148个差异基因进行重要性比较,结果见图2。有5个基因对分组的重要性较高,均大于0.04,这5个基因分别为HSD17B3、FCGR3B、ZBTB20、VGF、SCNN1D,将这5个基因作为特征基因纳入下一步模型效能的检测。
图2差异基因对建模的贡献程度
2.3基础模型的效能
在训练集上进行拟合,在测试集上验证各个算法的效能。各个算法在验证集上的分类效能见表1。不同的支持向量机算法的准确度分别为0.69、0.68、0.61、0.69,梯度下降树算法的准确度为0.68。而随机森林模型通过特征基因对于PCa无复发的准确度达到0.87,召回率达到0.84,其F1-score最高,具有最好的效能。
表1不同模型的效能结果
2.4随机森林的检验效果
鉴于随机森林具有最好的预测效果,我们对随机森林模型的效能进一步探究。如图3所示,随机森林模型的AUC为0.84。如图4所示,混淆矩阵结果表明模型预测复发的真实复发的患者和模型预测非复发的真实非复发患者均占比较高,这表明随机森林模型具有较好的效能。以上结果共同表明,随机森林模型对于PCa生化复发具有较好的预测效果。
图3随机森林ROC曲线
图4随机森林混淆矩阵
3、讨论
PCa的治疗不是一蹴而就的,患者在接受根治术后仍然需要定期的检测和复查。PCa的生化复发依旧是目前临床亟待解决的难题,且由于患者存在个体差异,仅仅依靠PSA筛查是远远不够的。目前许多学者尝试通过各种生物标记物和模型来对PCa复发进行预测[9]。有学者通过基于公共数据库,筛选出15个下调关键基因和7个上调关键基因,初步分析发现这些基因与患者的不良预后显著相关[10]。有研究发现PTEN抑癌基因的基因组畸变在PCa中最为常见,PTEN丢失与不良病理特征和肿瘤结局之间有很强的联系,可以作为复发的指标[11]。此外,近期一项研究表明前列腺基质中成纤维细胞的microRNAs水平在肿瘤发展和治疗耐药性中起着至关重要的作用。基于此开发的microRNAs模型对于PCa复发的预测具有较好的准确性,该模型为前列腺腺癌患者的个体化和精确治疗提供了新的思路[12]。虽然PCa的复发受肿瘤的分级分期、病理类型PSA水平、治疗方案等多种因素影响[13],但以上研究成果充分体现了遗传学的基因差异同样可以影响包括肿瘤复发在内的预后结果。在本研究中,我们通过对数据库中非复发与复发差异基因的筛选,纳入了5个基因进行建模,它们分别是HSD17B3、FCGR3B、ZBTB20、VGF、SCNN1D。HSD17B3基因表达羟类固醇脱氢酶17-β-3,其是睾丸合成雄激素的关键酶[14]。我们发现其在非复发组低表达,同时也显示其与PCa的生化复发风险显著相关。Fcγ受体是细胞表面受体的一个家族,通过结合免疫球蛋白的Fc部分来介导炎症反应。FCGR3B是5种高度序列同源性Fcγ受体的成员之一,其低拷贝数目前证明与多种自身免疫疾病如系统性红斑狼疮、原发性干燥综合征等的发病机制有关[15]。ZBTB20基因编码的蛋白是BTB锌指蛋白家族新成员,是一种序列特异性转录阻遏物,参与正常的细胞活动,也与许多肿瘤的发生发展密切相关[16]。VGF基因表达神经生长因子诱导蛋白,在中枢神经系统中具有许多作用,同时研究证实与抑郁症和精神分裂症的发病相关[17]。SCNN1D基因参与编码上皮钠通道的亚基,上皮钠通道能够维持体内盐和水的平衡,SCNN1D基因缺失增加易患呼吸道感染的风险[18]。这些基因在PCa中的作用还需要进一步的研究证实。
人工智能具有光明发展前景,机器人逐步取代人类的一些烦琐工作是未来的趋势,目前在很多领域人工智能已经初步应用。在医学领域,Wu等[19]使用深度卷积神经网络和深度强化学习方法开发的人工智能系统可以在食管-胃十二指肠镜检查期间对临床医生进行辅助,其可以降低胃肠镜手术的盲点率,提高日常内镜检查的质量。此外,Nassif等[20]的研究表明人工智能和机器学习已被有效地应用于乳腺癌的检测和治疗,有助于早期诊断和治疗,从而提高患者的生存率。梁银莹等[21]基于前列腺超声图像建立的机器学习模型,经验证与临床医生相比在诊断中高危PCa的分级和预后方面具有一定的优势。陈志远等[22]通过机器学习来构建的多基因模型对PCa的预测取得了较好的效果。在本研究中,我们通过机器学习结合PCa基因表达数据以及临床数据,建立了多个PCa生化复发的预测模型,结合特征基因的表达量,对PCa生化复发进行预测。我们对医学中常用的几个模型进行了检测,梯度提升决策树是监督学习中最强大也最常用的模型之一,适用范围较广;随机森林算法是在决策树基础上进行的一种算法,具有准确度高、处理数据复杂、学习过程迅速等优点;支持向量机算法是一种按照监督学习的方式对数据进行二元分类的广义线性分类算法,其具有稀疏性、稳定性和简便性的特点[23]。通过一系列的分析和验证,我们发现随机森林模型是最好的预测模型,模型预测的准确度最高。因此,通过机器学习来建立的多基因的预测模型,具有较高准确率和检验效能,可以作为PSA、Gleason评分、淋巴结转移等传统与复发相关因素的补充,这有助于实现PCa患者术后的个体化检测和治疗。
随着基因测序的技术和机器学习技术的不断进步,越来越多的机器模型会被逐步应用到前列腺癌的诊断和治疗中。我们的研究发现利用前列腺癌生化复发和非复发的差异基因来构建机器学习模型,能够较好地实现对前列腺癌复发的预测。这一方面有望减轻临床医生枯燥的随访工作,另一方面也为前列腺癌的个性化治疗提供了新的方向。
利益冲突所有作者均声明不存在利益冲突
参考文献:
[3]林映昇,刘增钦,谢京,等.前列腺癌主动监测研究进展[J].中华泌尿外科杂志,2023,44(9):717-720.
[10]张冠,杨登科.基于生物信息学方法筛选前列腺癌中的关键表达基因及其对预后影响的分析[J].现代泌尿生殖肿瘤杂志,2023,15(3):182-184.
[21]梁银莹,张凌烟,刘志勇,等.基于卷积神经网络经直肠超声模型预测前列腺癌Gleason分级[J].中国介入影像与治疗学,2023,20(9):550-554.
[22]陈志远,杨瑞,刘修恒.机器学习构建多基因模型预测前列腺癌[J].现代泌尿外科杂志,2020,25(7):585-589.
[23]汤胜男,辛学刚.机器学习在生物信息学领域的应用与研究进展[J].人工智能,2020,7(1):84-93.
文章来源:王厚清,刘瑜,谭夏秋,等.基于机器学习的预测前列腺癌生化复发的多基因模型的构建[J].临床泌尿外科杂志,2024,39(12):1107-1111.
分享:
前列腺癌在临床上较为常见,局限性前列腺癌是其中的一种类型,发病部位在前列腺腺体,癌细胞可通过淋巴转移、局部浸润、血行转移等方式,到达其他部位。局限性前列腺癌需及时治疗,手术治疗较为常见,也是控制疾病加重的一种有效方式。传统开腹手术具有创伤大、术中出血量多的特点,术后患者恢复效果不佳,且手术期间极易出现应激反应。
2025-08-15雄激素剥夺治疗(androgendepriva‐tiontherapy,ADT)是其核心疗法,可通过降低雄激素水平抑制肿瘤生长,但多数患者会进展为转移性去势抵抗性前列腺癌(metastaticcastration-resistantprostatecancer,mCRPC),导致治疗困难[3]。近年来,微管蛋白抑制剂因其独特作用机制成为mCRPC的一线治疗药物[4]。
2025-07-24前列腺癌(prostatecancer,PCa)是男性最常见的恶性肿瘤,近年来,我国PCa发病率迅速上升,约有60%的患者初诊时已为局部晚期或转移性PCa[1-2]。多数PCa依赖雄激素受体(androgenreceptor,AR)信号生长和存活,雄激素剥夺是晚期PCa的核心治疗。
2025-06-17前列腺癌是男性泌尿生殖系统中最常见的恶性肿瘤之一。根据国家癌症中心发布的数据,2022年我国新增前列腺癌病例约13.42万例,位居男性恶性肿瘤发病率的第6位;因前列腺癌死亡的病例约为4.75万例,在男性中排名第7位[1]。前列腺癌的发病率和死亡率在我国呈逐年增长趋势。
2025-06-17前列腺癌(prostatecancer,PCa)是全球男性第二大常见癌症,中国前列腺癌每年新发病例约7.2万例,死亡例数约3.07万例,5年生存率为69.2%且呈明显上升趋势。根治性前列腺切除术(radicalprostatectomy,RP)是局限性前列腺癌的主要治疗方式,但术后常出现排尿功能障碍、性功能障碍、肠道功能障碍等并发症。
2025-06-12前列腺癌是男性发病率日益增高的恶性肿瘤[1],好发于老年男性,年轻前列腺癌患者(<50岁)的比例很低,约为每10万人中1~2人。然而,随着前列腺特异性抗原(prostatespecificantigen,PSA)检查的普及,青年前列腺癌发病率和检出率有逐年升高趋势[2-4]。
2025-06-11在西方国家,前列腺癌(PCa)主要影响45~60岁的中年男性患者生存率。PCa患者主要通过前列腺活检和分析、前列腺特异性抗原(PSA)检测、直肠指检、磁共振成像(MRI)或健康筛查确诊,手术治疗仍然是目前的主要治疗手段。与PCa相关的危险因素包括家庭风险、种族、年龄、肥胖和其他环境因素。
2025-06-02铁死亡是近些年发现的前列腺癌治疗靶点,这一细胞死亡方式以铁依赖性的活性氧(Reactiveoxygenspecies,ROS)增多、脂质过氧化为主要生物学特征,相关研究表明激活铁死亡显著抑制前列腺癌细胞的增殖、迁移以及侵袭[3⁃4]。华蟾素是从蟾蜍干皮中提取得到的中成药,一项临床研究表明[5],华蟾素注射液辅助治疗前列腺癌可改进疗效、提高客观缓解率和临床获益率。
2025-05-27近些年前列腺癌发生率仍有上升趋势,因此临床早期对前列腺癌进行诊断和治疗以改善患者生存质量显得愈发重要。临床最常见的检测指标为前列腺特异性抗原(PSA),影像学检查为前列腺磁共振扫描,但这些均不足以对其进行确诊〔3〕。前列腺穿刺活检被视为确诊前列腺癌的有效手段,活检结果与前列腺癌分期、分级和手术切缘阳性率等存在密切关联性〔4〕。
2025-04-29前列腺癌是男性第二大常见的实体肿瘤,占所有男性癌症的15%。前列腺癌根治术是前列腺癌的主要治疗方式,因其需完全切除前列腺和后尿道,导致正常的控尿结构改变,引起尿失禁,严重影响患者术后生活质量。《中国泌尿外科和男科疾病诊断治疗指南(2022版)》[3]表明,盆底肌锻炼对前列腺癌术后尿失禁有改善作用。
2025-04-22人气:19289
人气:17594
人气:16628
人气:15806
人气:13842
我要评论
期刊名称:临床泌尿外科杂志
期刊人气:3108
主管单位:中华人民共和国教育部
主办单位:华中科技大学同济医学院附属协和医院,同济医院
出版地方:湖北
专业分类:医学
国际刊号:1001-1420
国内刊号:42-1131/R
邮发代号:38-124
创刊时间:1986年
发行周期:月刊
期刊开本:大16开
见刊时间:1年以上
影响因子:1.262
影响因子:0.972
影响因子:0.633
影响因子:1.147
影响因子:1.431
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!