首页 > 论文范文 > 自然科学论文 > 数学论文 > 数理统计论文 > 探讨如何完善混合蒙特卡罗搜索的特征选择算法

探讨如何完善混合蒙特卡罗搜索的特征选择算法

2020-05-26 275 上传者：管理员

摘要：特征选择是机器学习和数据挖掘中处理高维数据的初步步骤,通过消除冗余或不相关的特征来识别数据集中最重要和最相关的特征,从而提高分类精度和降低计算复杂度。文中提出混合蒙特卡罗树搜索特征选择算法(HMCTS),首先,根据蒙特卡罗树搜索方法迭代生成一个初始特征子集,利用ReliefF算法过滤选择前k个特征形成候选特征子集;然后,利用KNN分类器的分类精度评估候选特征,通过反向传播将模拟结果更新到迭代路径上所有选择的节点;最后,选择高精度的候选特征作为最佳特征子集。仿真结果表明,对比HPSO-LS和MOTiFS算法,HMCTS算法具有良好的可扩展性,且分类精度高。

关键词：
可扩展性
数理统计
特征选择
相关特征
蒙特卡罗树搜索
高维数据
加入收藏

高维数据;特征选择;相关特征;蒙特卡罗树搜索;可扩展性;

随着多媒体技术和计算机技术的高速发展,数据维度急剧增长[1,2]。特征选择是对高维数据进行降维的有效方法,目标是在保持数据底层结构的同时找到最重要的特征,实现高分类精度和降低计算复杂度[3,4]。

文献[5]中提出粒子群优化的混合特征选择算法在粒子群优化中使用局部搜索策略,考虑相关信息来选择不相关和重要特征子集。文献[6]中提出封装式蒙特卡罗树搜索的特征选择算法结合树搜索与随机采样获得最佳特征子集,由于随机性而选择一些噪声特征,在允许的模拟次数内处理高维数据时,分类精度降低。

本文提出混合蒙特卡罗树搜索的特征选择算法始特征子集,用ReliefF算法过滤选择前k个特征形成候选特征子集;再应用KNN分类器的分类精度评估候选特征,通过反向传播将模拟结果更新到迭代路径上所有选择的节点;最后选择高精度的候选特征作为最佳特征子集。仿真结果表明,对比HPSO-LS和MOTiFS算法,HMCTS算法具有良好的可扩展性,且分类精度高。

1、模型建立

蒙特卡罗搜索[7]有4个步骤:即选择,扩展,模拟和反向传播。在选择期间,搜索树从根节点遍历到非终端具有未扩展子节点的节点,基于UCT算法选择具有最高近似的节点;然后在扩展期间添加新子节点来扩展树;在模拟期间,从新的子节点进行随机模拟,直到到达终止节点,模拟奖励也在此阶段近似;最后,通过所选节点反向传播模拟奖励以更新树。树策略负责节点选择和扩展步骤,采用UCT算法[8]在各级节点上使用式(1)近似每个节点的重要性并排序,从而选择在每级选择具有最高近似值的节点。而默认策略负责模拟步骤。

UTCv=WvNv+C×2×ln(Np)Nv (1)

式中,Nv和Np分别表示节点v和父节点p已被访问次数;C是平衡探索需求和利用需求的一个常数;Wv是节点v上获胜模拟的计数。所提出的特征选择算法HMCTS模型如图1所示。

2、HMCTS算法

2.1特征选择树

假设特征选择为单个玩家游戏树,其中必须选择具有最大累积奖励的最佳表现节点(特征)。每个节点代表两个相应的特征状态之一:选择或不选择特征。

定义1:

对于特征集F={f1,f2,…,fi,…,fn},特征选择树是满足以下条件的树:

图1HMCTS模型图

①根是∅0,表示没有选择任何特征。

②任何节点在级别i-1上都有两个子节点fi和∅i,其中0<i<n。

在特征选择树中,节点fi代表特征fi被选择了,∅i表示特征fi未被选择。从根节点到叶节点的任何路径构成特征子集。因此,目标是找到提供最佳奖励(即准确性)的路径。该算法使用MCTS遍历特征选择树并选择其中一个路径。

2.2选择

遵循树策略,UCT算法遍历已经扩展的树,从根节点到当前节点(具有扩展子节点的非终止节点)。每个级别上通过使用式(2)选择获得具有高分的节点。如果在i级上选择节点fi,则证明特征fi在以前的迭代中为高奖励做出贡献,添加在特征子集Finitial中。另一方面,如果选择节点∅i,则特征fi没有为高奖励做出贡献,不添加特征fi到Finitial。

UCT算法在特征选择问题上的核心目标是找到具有最高奖励的路径(即准确性),如式(2)所示:

UTCvj=max(Qvj)+C×2×ln(Nvi)Nvj (2)

式中,max(Qvj)表示节点vj的最大奖励;C>0是一个常数;Nvj和Nvi分别是节点vj和父节点vi已被访问的次数。在树遍历期间,在每个树级别上选择具有最高分数的节点。

2.3扩展

通过添加新的子节点来扩展搜索树,将子节点添加到紧急节点(选择期间选择的最后一个节点)。同样,将UCT得分最高的子节点添加到搜索树中。假设在某个时刻紧急节点是vi,如果算法在搜索树中添加节点fi+1,表明特征fi+1包含在初始特征子集Finitial中。相反,添加子节点∅i+1,表明特征fi+1不包含在Finitial中。

2.4模拟

模拟步骤由默认策略控制,随机选择一个来自扩展子节点vi到叶节点vn的路径,因此,当前特征子集Finitial中包含或排除剩余的未扩展特征的概率一样。

假设扩展的子节点在当前的迭代中,特征f1～fi包含在选择步骤和扩展步骤(树策略)期间的初始特征子集Finitial中,剩余的特征fi+1～fn根据模拟步骤(默认策略)随机添加,在生成特征子集时随机采样并进行树搜索。

2.5候选特征子集生成

每次迭代都会生成初始特征子集Finitial,由于默认策略的完全随机性,很可能选择Finitial中高比例的特征。随着特征维度增加,选择的Finitial中包含噪声特征。为了解决这个问题,在Finitial中采用过滤器选择前k个特征形成候选特征子集Fcandidate,如式(3)所示:

Fcandidate=topK_Filter(Finitial)(3)

使用过滤器有两个优点:首先有助于从随机选择中消除噪声特征,其次有助于目标函数控制所选的特征维度并实现高精度。

2.6奖励计算和反向传播

将分类器应用于候选特征子集Fcandidate,Fcandidate上的分类精度用作当前扩展节点模拟奖励Qsimulation,通过反向传播奖励来更新搜索树,如式(4)所示:

Qsimulation=ACCclassifier(Fcandidate)(4)

式中,ACCclassifier(Fcandidate)是Fcandidate的分类精度。如果Fcandidate提供更高的准确性,则更新最佳特征子集,该过程继续,直到满足停止标准。

本文使用KNN分类器[9]进行奖励(分类精度)计算,KNN是非参数,最简单、最有效的学习算法。使用ReliefF[10]作为过滤方法,它的关键思想是根据特征值在彼此接近的样本之间的区别来估计他们的权重,根据类标签对特征进行排名。HMCTS算法代码如下:

3、仿真分析

3.1数据集和参数设置

为了验证本文所提算法的性能,选取低维数据集Multiple[11]和高维数据集Colon、Lymphoma[12]进行仿真分析,将所提HMCTS算法与HPSO-LS和MOTiFS进行仿真对比分析,实验中对算法的平均准确率及可扩展性两个个性能指标进行了分析。数据集详细信息如表1所示。

文本进行10倍交叉验证,其中1倍用作测试集,剩余9倍用于训练和验证。将所有数据集的缩放因子C修正为0.1,终止标准(#simulations)和top-k过滤有两种不同的设置。低维数据集和高维数据集分别设置#simulations为1000和10000,对于低维数据集,选择和分析特征总数的前5%,10%,15%,20%,25%,30%,高维数据集只有非常小比例的特征是相关的,但不是多余的。因此,top-k仅选择顶部5,10,15,20,25,30的特征。

表1仿真数据集

3.2仿真结果分析

为了对比分析不同算法的分类精度,分别在三个数据集中仿真平均准确率,对比如图2-4所示。

图2Multiple中不同特征的平均准确率

由图2可看出,HMCTS算法在低维数据集中平均准确率高于HPSO-LS和MOTiFS算法,这是由于混合式蒙特卡罗树能快速搜索找到最优特征子集,从而提高算法分类精度。

图3Colon中不同特征的平均准确率

由图3-4可以看出,HMCTS算法在高维数据集中平均准确率高于HPSO-LS和MOTiFS算法,而且当数据特征的维度越大时,混合蒙特卡罗树搜索性能更好,分类精度更高,表明算法可扩展性好。为了说明HMCTS的蒙特卡罗搜索策略的有效性和算法性能,将算法平均准确率和选择的特征列于表2中。从表中可看出HMCTS选择极少数特征就能使分类精度得到极大提高,表中的最后一列显示了没有特征选择的分类精度。

图4Lymphoma中不同特征的平均准确率

表2比较不同算法平均准确率(选择特征和未选择特征)

4、结束语

针对如何有效提高高维数据的分类精度和降低计算复杂度问题,提出混合蒙特卡罗搜索的特征选择算法HMCTS。首先,根据蒙特卡罗树搜索方法迭代生成一个初始特征子集,采用ReliefF算法过滤选择前k个特征形成候选特征子集;然后,采用KNN分类器的分类精度评估候选特征,通过反向传播将模拟结果更新到迭代路径上所有选择的节点;最后,选择高精度的作为最佳特征子集。仿真结果表明,对比HPSO-LS和MOTiFS算法,HMCTS算法具有良好的可扩展性,且分类精度高。在进一步的研究中,将考虑高维不平衡数据特点,改进算法。

参考文献:

[1]胡晶.云计算海量高维大数据特征选择算法研究[J].计算机仿真,2019(4):190-193.

[7]朱合兴.基于蒙特卡罗树搜索的预测状态表示模型获取及特征选择研究[D].厦门:厦门大学,2017.

[8]梁国军,谢垂益,胡伶俐,等.UCT算法在不围棋博弈中的实现[J].韶关学院学报,2015,36(8):17-21.

刘云,肖雪,黄荣乘.混合蒙特卡罗搜索的特征选择算法的优化[J].信息技术,2020,44(05):28-31+36.

基金:国家自然基金资助项目(61761025).

网友评论

加载更多

我要评论

期刊名称：数学的实践与认识

期刊人气：2784

期刊详情

主管单位：中国科学院

主办单位：中国科学院数学与系统科学研究院

出版地方：北京

专业分类：科学

国际刊号：1000-0984

国内刊号：11-2018/O1

邮发代号：2-809

创刊时间：1971年

发行周期：半月刊

期刊开本：16开

见刊时间：1年以上

论文导航

探讨如何完善混合蒙特卡罗搜索的特征选择算法

相关论文

基于数理统计法的高校羽毛球选项课教学现状研究

关键词

试析数据分析与数理统计的有机结合

关键词

五步法教学与“概率论与数理统计”课程的融合

关键词

大数据时代概率论与数理统计教学活动的探索

关键词

关于概率论与数理统计课程的探索

关键词

探究概率论与数理统计专业的教学内容及教学模式

关键词

关于《概率论与数理统计》教学方法的探究

关键词

基于问题驱动理念探讨概率论与数理统计课程教学过程

关键词

研究如何将数学文化有效地融入概率论与数理统计的具体教学

关键词

探讨氨纶生产中数理统计的运用

关键词

推荐期刊

心理学报

北京

月刊

福建论坛(人文社会科学版)

福建

月刊

运筹与管理

安徽

月刊

合肥工业大学学报（自然科学版）

安徽

月刊

科学中国人

北京

半月刊

网友评论

我要评论

期刊详情

论文导航

相关期刊

数学建模及其应用

山东

季刊

数学学报(中文版)

北京

双月刊

生物数学学报

辽宁

季刊

南京大学学报(数学半年刊)

江苏

半年刊

数学理论与应用

湖南

季刊

热门论文

网站导航

会员中心

关于我们

服务项目

发布论文

发布论文

发布论文

登录

找回密码

找回密码

您好，欢迎光临91学术！

您可以咨询：

服务热线：

91学术