摘要:基因芯片数据具有维数高、样本少、高冗余的特点,以基因芯片数据进行特征选择及分类处理为研究对象。粗糙集理论能很好地消除冗余数据,但它不适应连续型的基因芯片数据,通过基于邻域粗糙集模型的方法能很好地解决这一问题,但如何选择好邻域半径来提高分类效率一直没有固定的方法。从各条件属性标准差来得到一组邻域半径,进而得到各样本邻域。经典的芯片数据实验表明:基于优化的邻域半径组比传统设定单一的邻域半径能取得较好的分类效果,和传统的特征选择算法做比较也能得到较少的特征基因和较高的分类能力。
加入收藏
生物基因芯片也称为DNA微阵列,是当前常用的微阵列技术。微阵列所呈现的数据以矩阵形式存在,又称为基因表达数据。但是该数据存在着维数高而样本少的特征,维数通常可以达到成千上万基因,样本只有几十个,这给数据分析提出挑战。
当前越来越多的研究人员提出不同的特征选择算法应用于基因芯片数据分析中,2011年MiHK等人提出将NMF用于肿瘤特征基因的提取[1],2013年Song等人利用特征间相关性做权,利用普里姆算法构造出最小生成树,再选择每棵树中相关性最大的特征构成特征子集[2],2016年谢娟英等人提出基于K-S检验与mRMR原则的混合方法解决基因特征选择问题[3],2017年Lu等人为了降低基因表达数据的维度,采用最大化交互信息MIM和自适应遗传算法相结合的特征选择算法[4],Chen等人采用粗糙集和熵计算方法对基因进行特征选择[5],2018年Jain等人提出相关特征选择CFS和改进的二元粒子群iBPSO算法,对基因分类,得到较高的分类精度。
胡清华老师等人提出邻域互信息概念[6],构造信息粒度模型,该模型能够直接处理连续型数据。在邻域模型系统,邻域的半径是影响该系统的重要因素,不同的邻域半径对模型性能有较大差别,但如何选择邻域半径并没有统一的方法。本文针对此问题,采用计算各条件属性的标准差并除以一定参数得到一组邻域半径。
1、理论介绍
粗糙集理论于1982年由波兰数学家Pawlak提出,它的观点是“知识就是一种对对象进行分类的能力”,主要思想是在保证数据分类能力不变的前提下,对数据做属性约简、特征提取等操作[7]。
下面给出几个相关定义。
定义1在给定的N维实数空间Ω中,Δ=RN×RN→R,则称Δ为RN上的一个度量,若Δ满足如下条件:
1)Δ(x1,x2)≥0,当且仅当x1=x2时取等号;
2)Δ(x1,x2)=Δ(x2,x1);
3)Δ(x1,x3)≤Δ(x1,x2)+Δ(x2,x3)
称(Ω,Δ)为度量空间。Δ(xi,xj)表示元素xi和元素xj间的距离[6]。
定义2给定实数空间Ω上的非空有限集合U={x1,x2,…,xn},定义邻域δ(xi)={x|x∈U,Δ(x,xi)≤δ},δ≥0,δ(xi)称为xi的邻域粒子[6]。
定义3对于二元组NS=(U,N),X在邻域近似空间(U,N)中的上近似与下近似分别定义为:
同样定义X的下近似称为正域[6]。
定义4给定一邻域决策系统NDT=(U,A,D),在论域U中,决策属性D相对于条件属性B的依赖度定义为
而对于a相对于B的重要度定义为[6]
2、优化邻域半径的特征基因提取算法
在基因变量中,由于实验条件因素导致存在许多噪声基因,这些基因对于分类会产生一定影响,因此,通过特征基因的提取可以去掉噪声基因,并提高分类效率,具体步骤如下:
1)根据t值统计方法,计算各基因t值
式中:
是每个类别中样本基因的平均值,n1与n2是每类的样本数量,s1与s2是每类样本基因的方差。算出t值后从大到小进行排序,选出前100个t值大的基因和后100个t值小的基因,一般认为前面t值较大的基因对应一类表达,而后100个对应着另外一类[8]。
2)基于优化邻域的基因特征提取。邻域半径的选择对于特征基因的提取具有决定性作用,胡清华老师在文章[6]中对邻域半径预设一个值或是设置一定的步长范围,但这样得到的均为单一邻域半径,无法体现各属性本身的性质。因此,本文对该邻域半径进行优化改进,由于标准差能反应基因芯片数据的离散程度,为了体现各条件属性本身性质,本文计算各个基因条件属性的标准差,以此来作为邻域半径,这样对于邻域粒子的选择不再是根据固定的邻域半径,而是综合运用各条件属性的性质,并且邻域半径由单一值变为一组数据。更进一步地,为了做比较分析,得到最有效的特征基因,可以设置参数λ(如λ取0.5~1.5之间,步长为0.01),让标准差除以λ即δ=Std(ai)/λ,这样就可以在更广泛的邻域空间内提取更有效的特征基因。
根据该组邻域半径,得到基因特征提取算法如图1所示。
图1特征基因提取流程
该特征基因提取算法时间复杂度为条件属性个数O(n)。
3)根据提取出的特征基因数据,采用基于径向基支持向量机(SVM)和KNN分类,用分类正确的样本除以样本总数而得到识别率。
3、实验结果与分析
实验中使用基因分类常用的经典数据集Leukemia、Colon与Carcinoma[9,10,11]。各数据集性质见表1。
表1基因数据性质
采用邻域来做特征提取的主要因素是邻域半径δ的选择,这里运用计算公式Std(ai)/λ,λ取0.5~1.5之间,步长为0.01,这样可以得到100组特征基因子集,通过十折交叉验证,采用SVM和KNN(K为3)计算分类识别率[12,13,14]。
实验环境采用Win764bit操作系统,Intel(R)Corei7,8GB内存,matlabR2017a。计算特征基因子集的分类识别率,得到基于固定邻域半径与优化邻域半径下的最高、最低、平均识别率及最高识别率下特征基因个数的平均值,如表2与表3所示。
表2基于固定/优化邻域半径SVM识别率%
表3基于固定/优化邻域半径KNN识别率%
从表2、表3可以看出,Carcinoma与Leukemia最优识别率在两种分类器均可达100%,而Colon相对较差,SVM下固定邻域半径为72.58%,而优化邻域半径识别率达77.42%,在KNN分类器下分别为86.36%和81.82%。从平均识别率来看,基于优化的邻域半径在两种分类器下识别率均比固定邻域半径高,并且平均特征基因个数较少。
为了验证优化邻域半径粗糙集的有效性,本文引入3种典型的特征提取方法作为比较,分为主成分分析(PCA)、线性判别分析(LDA)及核主成分分析(KernelPCA),特征基因数范围设定为2~10,得到3种数据集的分类识别率如表4、表5和表6所示。表中每列算法左边数据为SVM得到的识别率,右边为KNN得到的识别率。
表4Carcinoma数据集在3种降维算法下识别率%
表5Colon数据集在3种降维算法下识别率%
从表中可以看出,Carcinoma数据集在用PCA特征提取后,两种分类算法识别率均达到最优识别率100%,而LDA和KernelPCA最优识别率SVM分类下分别只有91.67%和77.78%,KNN下为91.67%和66.67%。Colon数据集在PCA与LDA效果也不好,SVM最优识别率均为64.52%,KNN分别为77.27%与68.18%,而在KernelPCA则较高,为80.65%和86.36,Leukemia数据集在PCA与LDA效果也较好,SVM最优识别率分别为98.61%与93.06%,但还是低于基于邻域的特征提取,在KernelPCA效果则不明显,最优达73.61%。为了更好地比较5种算法在基因数据特征提取的优劣,比较识别率的平均值,并画出柱状图,如图2、图3所示。其中,优化邻域半径变化的标识为VarNeighborhood,固定邻域的标识为Neighborhood。
表6Leukemia数据集在3种降维算法下的识别率%
图25种算法平均识别率(SVM)比较
从图2可以看出,基于优化邻域半径的特征提取在SVM分类器Carcinoma与Leukemia数据集识别率平均值均比其它4种算法好,而在Colon数据集中比PCA、LDA和固定邻域半径高,稍微低于KernelPCA,但两者也较接近。从图3可以看出,在KNN分类算法中,基于优化邻域半径在3种数据集的平均识别率都能高于或等于(只有与Carcinoma数据在PCA下相等)其他4种算法。
以上通过实验得出的结果,可以说明基于优化邻域粗糙集半径的约简算法在基因数据特征提取中能很好地应用,面对海量的高维数据,通过运用邻域约简算法提取特征基因,剔除无用或冗余基因,能达到更好的分类识别率[15,16,17]。
图35种算法平均识别率(KNN)比较
4、结束语
使用邻域粗糙集做属性约简算法进行数据的特征提取时,邻域半径的确定往往能影响最终的实验效果,绝大多数实验均使用事先已确定的邻域半径逐一搜寻最优的分类,本文对于这一问题,对邻域半径进行优化,提出使用计算各属性的标准差来得到一组邻域半径,再根据这组邻域半径计算各属性子集下的样本邻域。在Carcinoma、Colon与Leukemia数据集中实验,SVM与KNN分类结果均表明基于优化邻域半径得到的分类平均识别率均比固定邻域半径的属性约简算法高,并且和传统特征提取算法进行比较也高,这证明了改进邻域半径的有效性。
生物芯片数据是当前的研究热点之一,应用范围非常广,不断研究有效的算法,挖掘其中隐藏在芯片中有价值的知识[18,19]是当下面临的首要任务。
参考文献:
[3]谢娟英,胡秋锋,董亚非.K-S检验与mRMR相结合的基因选择算法[J].计算机应用研究,2016,33(4):1013-1018.
[6]胡清华,于达仁.基于邻域粒化和粗糙逼近的数值属性约简[J].软件学报,2008,19(3):640-649.
[7]苗夺谦,李道国.粗糙集理论、算法与应用[M].北京:清华大学出版社,2008.
[20]王淑娟,张家源.非对称系统的特征向量导数的新算法[J].黑龙江工程学院学报,2018,32(5):32-35.
黄紫成,李影.一种优化邻域半径的生物芯片数据处理方法[J].黑龙江工程学院学报,2020,34(03):11-15.
基金:2018年福建省中青年教师教育科研项目(JT180671);2018年福建省科技厅软科学项目(2018R0097).
分享:
据中国老龄协会预测,到2050年,我国60岁及以上的老年痴呆患者数量将达到2898万[1]。目前认知健康的评估主要依赖于传统的神经心理学测试量表,形式大多采用纸笔测试或电脑测试。量表评估存在着如形式单一、内容枯燥以及评估结果不准确性等诸多局限[2]。
2024-11-26随着科技的发展,人们对健康管理和疾病预防的需求越来越高。心跳和呼吸是人体重要的生命体征信号,检测方法有心电图法、光电体积描记法、胸壁位移传感法等[1-2]。然而这些方法均为接触式的检测方法,在对重感染的病人和重度烧伤患者体征信号检测时存在很大的局限性,因此非接触式生命体征信号检测技术的研究得到了极大的重视[3]。
2024-11-15目前,睡眠呼吸检测硬件分为接触式测量和非接触式测量两大类[7]。接触式检测主要利用压力传感器[8]、三轴加速度传感器[8-9]、温度传感器[10]等,通过传感器和人体接触获得人体睡眠呼吸信号。接触式检测在实施过程中不可避免地会对睡眠造成影响,也会给受测者造成身体与心理负担。
2024-11-15碳纤维作为一种高性能复合材料,因其卓越的机械性能和优异的化学稳定性,在多个工业领域得到广泛应用。在医学成像技术领域,碳纤维的独特价值为设备设计和功能开辟了新的可能性。这种材料不仅轻质高强,而且在成像过程中展现出低吸收和低散射的特性,从而提高了成像质量,减少了干扰,助力医生做出更精确的诊断。
2024-11-12测压技术的发展为胃肠动力障碍的临床诊治提供了新的思路,胃肠道压力检测方式安全、简便、无创、客观,可准确获取和反映胃肠道腔内基础压力及其变化的频率、幅度、动力指数等,从而全面评价胃肠道运动功能、分析胃肠功能障碍的病理生理机制,诊断患者病情并针对性治疗[5]。
2024-11-04近年来,越来越多的研究表明,细胞的机械性能与其生理状态和功能密切相关,人体患病后细胞器结构的改变会导致细胞机械性能的变化[4]。经研究发现,在感染疟疾或患镰刀型贫血症后,人体内红细胞的硬度明显高于正常红细胞,这导致它们在穿越血管壁时受阻[5]。
2024-11-04电阻抗断层成像(electrical impedance tomo-graph, EIT)是一种无创和非辐射技术,它是通过对体表电极阵列采集的电阻抗数据进行重构来实现的[1]。目前全球第二大常见死因是脑损伤,早期诊断和治疗可以预防大多数脑损伤病例的不良预后。传统脑损伤的检查方式包括CT、MRI、PET等检查。
2024-10-31在现代的医疗手术和医学技术中,微创手术因其创伤面积小、效率高、安全性高的优势,已经逐渐成为主流,涉及领域极其广泛。在乳腺肿瘤治疗方面,为了实现乳腺肿瘤的彻底切除与恢复并维持女性乳房美观形态的统一,采用真空辅助微创旋切系统(vacuum-assisted breast biopsy, VABB)进行微创手术替代原有整体切除模式已成为最优选[1-2]。
2024-10-16剧烈疼痛是战伤伤员最常见的症状之一,特别是以骨折和烧伤为代表的最严重疼痛,极大影响部队战斗力。目前较一致的观点认为早期介入疼痛治疗十分必要,持续的伤害性刺激能使中枢神经系统致敏,致敏后的神经元对疼痛刺激的阈值降低,使疼痛的强度和持续时间明显增加,并且会进一步增加疼痛治疗的难度[1]。
2024-10-15球囊扩张导管广泛应用于狭窄血管的扩张,1964年,Dotter和Judkins[1]首次将球囊扩张导管应用于外周动脉硬化的治疗。1978—1979年,Grüntzig等[2-3]建立了经皮冠状动脉腔内成形术(PTCA),采用球囊扩张导管通过机械膨胀的方式扩张冠脉血管。并在18个月内成功治愈34例患者[4]。
2024-10-08人气:4337
人气:3702
人气:2628
人气:2568
人气:2314
我要评论
期刊名称:生物学杂志
期刊人气:5015
主管单位:安徽省科学技术协会
主办单位:合肥市科学技术协会
出版地方:安徽
专业分类:生物
国际刊号:2095-1736
国内刊号:34-1081/Q
邮发代号:26-50
创刊时间:1983年
发行周期:双月刊
期刊开本:大16开
见刊时间:一年半以上
影响因子:1.343
影响因子:1.227
影响因子:1.286
影响因子:0.000
影响因子:1.349
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!