摘要:径向基函数(RBF)神经网络广泛用于各类医学预测模型中,针对RBF神经网络隐含层高斯径向基函数的参数确定困难,影响癌症预后模型的因素具有多样性和模糊性等问题。利用云模型优化RBF神经网络算法,通过高维云变换确定RBF隐含层神经元,优化RBF神经网络结构。用来自美国国家癌症研究所监测、流行病学和最终结果(SEER)数据库的4 771例食管鳞状细胞癌患者数据建模仿真与传统的仿真对比,证明该模型预测生存期的C-index为0.705,远高于肿瘤等级、列线图和RBF神经网络(0.598、0.627和0.632),能更好更准确地对食管鳞状细胞癌患者进行预后预测。
加入收藏
中国是食管鳞状细胞癌(esophageal squamous cell carcinoma, ESCC)的高发地,河南省是发病的重灾区。2021年,中国新增ESCC患者32.4万人[1,2]。ESCC的特点是高侵袭性和预后差,尽管已经有多种人工智能算法应用在ESCC的诊断和预后预测上,但由于ESCC的预后是一个复杂且模糊的概念,影响预后的因素繁多且充满不确定性,如何建立一种通用且准确的模型来预测ESCC是研究的重点课题。随着人工智能技术在医学上应用的深入,国内外专家已将多种智能算法应用到ESCC预测上,包括列线图(nomogram)、随机森林(random forest)、人工神经网络(artificial neural network, ANN)、支持向量机(support vector machine, SVM)和加权共表达网络分析(weighted gene co-expression network analysis, WGCNA)等[3]。文献[4]采用列线图算法,通过利用ESCC患者的信使核糖核酸(messenger ribonudeic acid, mRNA)数据进行了预后预测,与随机森林算法相比,提升了预测准确度。文献[5]开发并验证了一个基于卷积神经网络的人工智能系统,用于早期ESCC的图像分类和病变定位。人工神经网络凭借其强大的非线性映射能力可有效地拟合ESCC的特征与预后之间的关系,成为了构造ESCC预测模型的首选方法。
径向基函数(radial basis function, RBF)神经网络建模简单易用,收敛速度快,且不易陷入局部极小化。但是训练RBF网络时,隐层节点数的确定、隐层中心和宽度的确定非常困难,很多研究中都是人为确定网络结构,网络初始连接权值和阈值也都是赋予随机值,具有模型收敛慢、性能不高的问题,缺乏处理不确定性的能力。蚁群优化算法在参数的寻优时收敛速度慢容易陷入局部最优解问题。参数集合中的离散个体,搜索精度低,遗传算子的选择有时比较麻烦。众多研究已经表明影响ESCC患者生存期的因素是多样且复杂的,显著地理环境差异和遗传因素可能在ESCC的发生发展中起重要作用,同时,饮食习惯、吸烟、饮用水质等都对ESCC的发病率和预后有影响[6]。但由于ESCC患者的影响因素往往存在较大差异,随机性和不确定性强。文献[7]发现云模型在处理不确定性问题上独树一帜,为了让其既能处理不确定性也能处理随机性,本文提出了云模型RBF神经网络。
本文以美国国家癌症研究所监测、流行病学和最终结果(surveillance, epidemiology and end results, SEER)数据库的数据为基础,探究患者预后的相关危险因素并量化风险值,选取影响ESCC预后的因素,代入到云模型优化RBF神经网络模型中训练,通过云变化的计算方法得到影响预后因素的云参数,将计算得到的参数代入模型,对ESCC患者的生存期进行预测,从而为临床实践提供帮助。
1、云模型
对事物的预测要遵循事物的发展规律,预测过程中往往伴随着大量的不确定性。随着对不确定性问题研究的深入,人们确定随机性和模糊性是最基本的,只有不确定性本身才是确定的。概率论和模糊数学已经无法解决不确定性。文献[7]提出了云的概念,并将模糊性和随机性联系起来。随后人们将云模型应用到自然语言处理、企业评价、决策分析、图像处理、电力系统负荷预测以及医学预测等领域。
1.1云模型和云发生器
云模型的3个最重要的数字特征使用期望值Ex、熵En、超熵He进行表示。其中,定义期望值Ex为定性概念的点;熵En体现了云滴的离散程度和覆盖范围;超熵He为熵的不确定性度量,由熵的模糊性和随机性共同决定[8]。正态云模型是最基本的云模型,其期望曲线是一个正态特性曲线,云分布曲线为:
[Math Processing Error],
(1)生成云的软件或者硬件可定义为云发生器,并有正逆向云发生器之分[9]。云发生器如图1所示。正向云发生器使用云模型的3个数字特征来生成云滴,而逆向云发生器则是使用特定的样本值逆向转换为合适的定性语言值{Ex,En,He}。
图1云发生器
逆向云发生器就是正向云发生器的逆换算,可以把定量数据转为定性的结果。期望值Ex、熵En和超熵He表达了云的所有特征。图1b显示了一维逆向正态云发生器,其算法步骤具体如下:
(Ⅰ)由xi推算这组数据的平均值,一阶样本中心矩为[Math Processing Error],样本方差计算如[Math Processing Error]
(Ⅱ)由云分布曲线可得期望[Math Processing Error]
(Ⅲ)同时,由样本均值可得熵[Math Processing Error]。
1.2云变换
云变换可指任意1个不符合规则的数据分布,并依据某种规则开始数学变换,使其变为若干个不同云的叠加,即f(x)≈∑cj*Cj(x)。其中:f(x)为分布函数;cj为系数;Cj(x)为概率密度期望函数。详细步骤[10]如下:
(Ⅰ)获取某一个属性i的数据分布函数f(x);
(Ⅱ)开始定位数据分布函数f(x)所在位置的波峰值,并将其属性值设定为云期望Exj(j=0,1,…,m-1);然后,对云模型的熵进行计算,进一步获得云模型的数据分布函数fj(x);
(Ⅲ)接下来,利用f(x)减去fj(x),获得最新的数据分布函数f'(x),迭代上述两个步骤,直至得到多个云的数据分布函数fj(x);
(Ⅳ)最后,得到多个云的叠加f(x)=∑fj(x)=∑cj*Cj(x)。其中:x轴为属性i的定义域;y轴为每一个云隶属于各自概念的隶属度。
2、RBF神经网络及优化
2.1 RBF神经网络结构及映射关系
文献[11,12]将多变量插值的RBF应用于人工神经网络设计,构造了RBF神经网络。RBF神经网络是由输入层、隐含层、输出层组成的多层次前向型人工神经网络。RBF神经网络结构图如图2所示。图2主要为3层RBF神经网络结构,具有n个输入节点、k个隐层节点以及m个输出节点[13]。
图2 RBF神经网络结构图
图2中:x=[x1,x2,…,xn]T为输入矢量;Φ=[ϕ(x,c1),ϕ(x,c2),…,ϕ(x,ck)]为网络隐层输出矩阵;ci为第i个隐层节点位置,i=1,2,…,k;Wkm=[w1,w2,…,wk]T为网络输出权值矩阵,其中wi=[wi1,wi2,…,wik]T;F(x)=[f1(x),f2(x),…,fm(x)]T为网络输出矢量。径向基函数ϕ(x,ci)常常选取高斯函数[14]。
RBF神经网络主要由基本工作原理和其映射关系两部分组成[15]。初始数据经输入层传递至隐含层,并经过非线性转换,再将初始数据映射至隐含层空间,图2可表示为第i个隐单元输出:
[Math Processing Error], (2)
其中:x为输入变量;ci为第i个隐层节点位。数据传到输出层,经过线性变换,RBF神经网络最终输出。则图2中第j个输出单元的输出为:
[Math Processing Error], (3)
其中:wij为第i个隐单元与第j个输出之间的连接权;wj为校正量。
2.2云模型优化RBF神经网络参数
目前,应用于RBF神经网络的训练和优化的算法,如蚁群算法、麻雀搜索算法、多重模糊、遗传算法、粒子群优化算法、基于k-means聚类的方法等,都是围绕确定网络的权值、中心和宽度来展开的[16,17,18,19,20]。但是,以上优化算法大都有不同的缺点,包括样本数据本身的不确定性。
通过对上述云模型以及RBF神经网络的介绍,可以看出两者的近似之处。云模型的建立要有
3个参数(Ex、En、He),建立RBF神经网络的也要用到3个参数(中心、宽度、连接权值)。这就能够利用云模型期望Ex取代中心,熵En取代宽度,最后利用最小二乘法求出连接权值,完成二者的结合。新结合的模型既能够实现云模型的模糊性和随机性的统一,又拥有RBF神经网络学习快、非线性映射强和拓扑关系的优点。
影响预测的因素往往不只一个,当存在多个因素时,就需要构建高维云来解决。首先,对n个影响因素标准化后利用云变换得到分布曲线,再应用云发生器算法生成n个影响因素的正态云。将各影响因素的云朵数作为隐含层个数,再按照RBF神经网络训练方法去触发每一个隐含层的云节点,按照n维正态云算法构建高维云模型。不同影响因素的同一样本触发相同的节点得到了不同的隶属度,结果的随机性满足了正态分布的模糊性,然后将不同隶属度的均值作为期望。用所有样本分别触发所有节点,获到隐层输出矩阵,应用最小二乘法求出权值矩阵,至此云模型优化RBF神经网络完成了训练。
3、基于云模型RBF神经网络的食管鳞癌患者预后中的应用
3.1样本来源和预后危险因素分析
通过SEER*Stat软件(v8.3.6,https://seer.cancer.gov/seerstat/)从美国国立卫生研究院SEER数据库(http://seer.cancer.gov/)里下载了1973年—2015年的原发性食管癌患者数据86 915例。其中,腺癌患者9 550例,鳞癌患者4 771例,总体中位生存时间14月,平均生存时间26.5月,3a生存率为65.8%。排除的标准为:①患者基本信息缺失,例如诊断的年龄、种族、性别等;②肿瘤-淋巴结-转移(tumor-node-metastasis, TNM)分期、肿瘤大小、淋巴结个数等未知;③病理类型非腺癌或者鳞癌。本文提取并分析了患者的种族、年龄、性别、城市、肿瘤位置、分化程度、TNM、组织学等级、组织学类型、肿瘤大小、淋巴结个数、生存状态和时间等变量,参照第7版美国癌症联合会(American joint committee on cancer, AJCC)食管癌分期方案对所有患者的T、N、M进行分期。严格按照入组标准筛选后获得4 771例食管癌患者。本文将以上数据分成两部分,随机选择约1/4(1 200例)数据作为验证数据约3/4(3 751例)数据作为训练数据。
首先,对训练数据的食管癌患者进行了单因素COX分析,随后将单因素COX分析中有表现意义的危险因素代入至COX比例风险模型,开始多变量分析,最后得出食管癌预后的独立因素。其检验标准值可定义为P<0.01,具有统计学意义。以上计算主要使用了RStudio Version 1.1.463软件的Hmisc、survival、rms、Complex Heatmap等软件包。
对各临床因素进行单因素COX分析,结果显示:性别(P<0.001)、种族(P<0.001)、组织学分级(P<0.001)、原发肿瘤(P<0.001)、区域淋巴结(P<0.001)、远处转移(P<0.001)与患者生存期相关。诊断年龄(P=0.293)与患者预后不相关。经过计算诊断年龄的cutoff值定为60岁最合适。上述详情见表1。表1中,风险比(hazard Ratio,HR)主要用于生存分析,表示暴露组患病的概率为非暴露组的倍数,考虑了结局发生的时间。
表1影响ESCC患者生存率因素的单因素和多因素COX分析
选取单因素分析结果P<0.01的因素进行多因素COX分析,结果显示性别(P<0.001)、种族(P<0.001)、组织学分级(P<0.001)、原发肿瘤(P=0.003)、远处转移(P<0.001)是影响食管鳞癌患者预后的独立因素,而区域淋巴结(P=0.817)与患者预后不相关。上述详情见表1。
从多因素COX分析得知,性别、种族、组织学分级、原发肿瘤、远处转移是影响食管鳞癌患者预后的独立因素。利用最终得到的独立预后因素构建食鳞管癌预后模型。
3.2基于新模型的食管鳞癌预后模型
对上文得到的危险因素数据归一化到[0,1],将其作为特征向量,即影响食管鳞癌患者预后的因子。本模型是在MATLAB平台上对总生存期(overall survival, OS)值进行预测。OS指从某事件起始至不论何原因的死亡的总时长,如果在生存期上有小幅度的提高,可以认为是有意义的临床受益证据[20]。本文以性别、种族、组织学分级、原发肿瘤(T分期)和远处转移(M分期)作为输入数据。需要构造RBF 3层神经网络,其中隐含层个数的确定步骤如下:
(Ⅰ)对照上文中提到的方法,对影响因子种族采取极大值法进行云变换后。首先,得出种族线,如图3所示;再利用云发生器算法,可以获得2朵正态云图,如图4所示。
图3种族数据分布图
图4合并后的云图
(Ⅱ)按照步骤Ⅰ的方法对影响性别、种族、组织学分级、原发肿瘤(T分期)和远处转移(M分期)进行同样的云变换,合并后的云朵数和云参数如表2所示。表2中的熵诠释了模糊性和随机性的联系,代表定性概念的随机性,同时代表论域空间云滴的最大值,即模糊度。通常来说,熵越大,模糊性和随机性也就越大,确定性量化越难。一般来说,熵大于0.6代表模糊性和随机性比较大。从表2中可以看出:肿瘤等级、远处转移(M分期)和性别的模糊性比较低,原发肿瘤(T分期)和种族的模糊性和随机性比较大,分别为0.646和0.652。
(Ⅳ)完成RBF神经网络的训练。用每一个训练样本触发每一个隐层的云节点,同一样本经过数次激发同一个节点,求出每个隶属度值,用3 751个样本触发128个节点,计算得到3 751*128的隐层输出矩阵H,网络输出为1*3 751的矩阵T,再用最小二乘法很可以得到H×T=W中的权值矩阵W,至此RBF神经网络训练完毕。
为了验证云模型RBF神经网络算法的有效性,进一步评估模型的预测能力和准确性,本文预测的总生存期(OS)是一个患者总生存时间,所以验证也采用了医学专用的指数,计算模型的似然比x2、赤池信息量准则(Akaike information criterion, AIC)和一致性指数(concordance index, C-index)。较高的C-index和更高的似然比x2代表系统更好的预测性能,而AIC值越低,系统就越好[21]。
表3AIC和C-index对食管鳞癌预后模型的预后能力和准确性评价
表3为AIC和C-index对食管鳞癌预后模型的预后能力和准确性评价。由表3可知:SEER数据库中云模型优化RBF神经网络算法似然比x2 (30.27)高于肿瘤等级、RBF神经网络和列线图(15.48、21.56和20.81)2个组别。肿瘤等级、列线图、RBF神经网络和云模型优化RBF神经网络算法的AIC分别为38 828.12,20 614.32,20 312.78和15 426.31。并计算预测概率与实际结果之间的C-index。在SEER数据库中,肿瘤等级、列线图、RBF神经网络和云模型优化RBF神经网络算法预测OS的C-index分别为0.598、0.627、0.632和0.705。
4、结束语
本文利用正态云参数来优化RBF-ANN,优化算法把RBF-ANN参数的优化问题转变成0正态云参数的求解问题,使得改进的云模型RBF神经网络具有了云模型的模糊和随机的统一。通过对SEER数据库的ESCC患者数据仿真实验可以看出,云模型优化RBF神经网络算法的预测能力高于其他模型。充分证明了云模型优化RBF神经网络算法模型不仅比其他机器学习模型具有更高的预测能力,而且在处理不确定问题时也有更多的优势。在以往的研究中,云模型已被应用于电力系统负荷预测和温度预测,但本文将云模型应用于医学,研究结果表明,该算法在食管鳞状细胞癌患者预后方面具有广阔的发展前景。
总之,本文开发并验证了一种新的云模型优化RBF神经网络模型来预测ESCC患者的生存情况。该模型易于使用,与列线图等模型相比具有明显的预测优势,在处理不确定问题时更具有优势。
参考文献:
[2]赵梦玲,杨心露,殷新宇改进蜉蝣算法及其在脑电信号识别中的应用[J]河南科技大学学报(自然科学版),2023.44(2):51-58.
[5]龙其刚基于深度学习的早期食管鳞癌辅助筛查技术研究[D].合肥:中国科学技术大学, 2022:001569.
[7]李德毅,孟海军,史雪梅隶属云和隶属云发生器[].计算机研究和发展, 1995,32(6):15-20.
[8]李峰云模型优化的模拟电路故障诊断智能方法研究[D]桂林:桂林电子科技大学, 2020.
[10]张凯,张明慧基于云模型和证据理论的科技创新与持续发展能力评价[J]运筹与管理, 2022,31(4):109-115.
[12]赵辉,郭春喜,孟静娟,等加权总体最小二乘和RBF神经网络的三维坐标转换[J].大地测量与地球动力学, 2023,43(1):29-33 .
[13]孙旺,朱平,严宏鑫基于BP和RBF神经网络对静电纺丝工艺参数的优化研究[J/OL]材料科学与工艺
[14]汤少敏,刘桂雄,李小兵基于RBF神经网络的Bootstrap数据扩充方法及其在IRSS可靠性估计中的应用[J]中国测试, 2022 ,48(11).22-26,53.
[15]徐武,陈盈君,汤弘毅,等,局部特征映射与融合网络的人脸识别优化算法[J]河南科技大学学报(自然科学版),2023,4(2):59-64.72.
[16]朱嘉豪,郑巍,杨丰玉,等.基于蚁群优化反向传播神经网络的软件质量预测[J/OL].计算机应用(2023-01-12)[2023-01-15.
文章来源:刘轲,张冉,崔志斌,张殿宝,高社干.云模型优化径向基函数神经网络算法研究[J].河南科技大学学报(自然科学版),2023,44(05):49-55+7.
分享:
风电机组具有承受360°方向重复荷载和大偏心受力的特点,因此对地基的稳定性和基础的不均匀沉降要求较高。根据地质条件,地基形式一般可采用天然地基、复合地基、桩基础,对应基础形式可采用圆形基础、八边形基础、圆形肋梁基础。随着风机制造技术的日趋完善,风电机组单机容量越来越大。
2025-05-07在现代水环境监测与治理工作中,越来越多的先进技术已在传统水环境监测技术中得到了良好融合。尤其是数字孪生技术,更是在现代水环境监测领域中表现出了非常强大的应用优势,为水环境监测工作提供了有力的技术支持。在这样的情况下,数字孪生技术及其在环境监测领域中的应用也开始备受关注。
2025-04-20DIP随着我国医药卫生体制机制改革不断持续深入推进,医保基金合理使用与监管的重要性日益凸显,职工医保和城乡居民医保参保人数呈不断上升趋势,在我国基本公共卫生医疗服务体系建设中扮演着重要角色。支付方式改革是医保改革中的“牛鼻子”,是撬动医疗保障和医疗服务高质量发展的重要支点。
2025-04-05关节软骨、周围结构损害,多发生于老年人群、男性群体,发病后患者多出现关节软骨断裂、关节软骨溃疡、骨赘形成、继发性滑膜炎等病理性改变,还常表现出髋关节疼痛、肿胀、酸痛、肌肉痉挛、功能受限、关节变形、关节僵硬、运动能力降低、坐位站立困难等临床症状,严重影响患者生活质量。
2025-03-21骨关节炎以进行性软骨退化为特征,是老年人中最普遍的退行性关节疾病之一,可导致剧烈疼痛和关节功能障碍。进行性软骨细胞凋亡是骨关节炎的主要致病特征。有证据表明,一些氧化刺激物会诱导软骨细胞产生炎症介质,引起软骨稳态失衡,进而激活炎症反应,导致软骨细胞凋亡。
2025-02-10胰岛素抵抗是指各种原因使胰岛素促进葡萄糖摄取和利用效率下降,机体代偿性分泌过多胰岛素产生高胰岛素血症,以维持血糖的稳定。胰岛素抵抗易导致代谢综合征和 2 型糖尿病,而胰岛素抵抗导致的长期慢性高血糖,可致使眼、神经、肾脏和心血管等组织和器官产生损害而出现一系列并发症,严重危害人体健康。
2025-02-10溃疡性结肠炎(Ulcerative colitis,UC)是以腹痛、腹泻和直肠出血为主要表现的慢性炎症性肠病,如果不及时治疗,会增加患结肠癌的风险。许多研究已表明UC的潜在机制包括炎症细胞的浸润、T细胞的激活、促炎细胞因子的诱导和氧化应激。但目前治疗溃疡性结肠炎的药物只能消除症状,不能从根源上治愈结肠炎。
2025-01-28盆腔炎是一种具有高发病率、高复发率的妇科常见疾病。患者主要表现有腰骶酸痛、下腹坠胀、易疲劳等,严重时还会影响女性生育能力。依据中医基础理论,将盆腔炎分为热毒炽盛、湿热瘀结、气滞血瘀、寒湿瘀滞等证型,临床上以寒湿瘀滞较为常见。
2025-01-11痛风是一种嘌呤代谢障碍导致单钠尿酸盐(monosodium urate,MSU)结晶在体内沉积所致的炎症性疾病。我国痛风患病率在0.86%~2.20%,且呈现逐年升高的趋势。现代医学研究表明,痛风及高尿酸血症已成为高血压、糖尿病、心脑血管疾病及慢性肾病等多种疾病的独立危险因素。
2024-12-07直肠尿道瘘是一种临床上相对罕见的疾病,它是直肠和尿道之间的异常通道。这类瘘管的形成可能由于手术创伤、放射治疗、冷冻治疗或其他医疗操作造成的。这种疾病的治疗通常需要手术干预,而手术方法的选择取决于瘘管的类型、位置以及患者的整体健康状况。常见的直肠尿道瘘手术方法包括经会阴入路、经腹入路、腹腔镜手术及经肛门括约肌入路等。
2024-12-07人气:8319
人气:6719
人气:5945
人气:5767
人气:5606
我要评论
期刊名称:河南科技学院学报(自然科学版)
期刊人气:2962
主管单位:河南省教育厅
主办单位:河南科技学院
出版地方:河南
专业分类:农业
国际刊号:1008-7516
国内刊号:41-1417/N
创刊时间:1973年
发行周期:双月刊
期刊开本:大16开
见刊时间:4-6个月
影响因子:0.294
影响因子:0.165
影响因子:0.223
影响因子:0.640
影响因子:0.452
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!