摘要:随着网络信息时代的到来和新闻数据的不断增加,人们需要对新闻进行分类的难度也不断加大。那么,是否有一种有效的分类新闻信息的方法将新闻进行分类呢?而在文本分类中,有较好的文本分类的算法是朴素贝叶斯算法。本研究以通过网络爬虫的方式爬取某新闻网站的少量新闻数据数据,然后对数据进行简单的数据预处理、中文文本分词等,构建朴素贝叶斯分类器,进而实现对新闻分类的目的。
1、绪论
随着网络的迅速发展和大数据时代的到来,与网络随着而来的新闻数据也大量增加。面对爆炸的数据,需要使用恰当的方法对文本进行分类。文档分类大致需要以下三个要素:文本向量模型表示、文本的特征选择和文本训练分类器。而目前比较流行的分类方法主要有贝叶斯方法、SVM、神经网络、k2最近邻算法等等。
本文采用贝叶斯的分类方法。贝叶斯是一种比较简单、学习效率和预测效率都很高,并且性能又较好的基于概率的一种学习算法。朴素贝叶斯是在贝叶斯定理和特征条件独立的前提下,给定训练数据集,根据特征条件独立学习计算输入输出的联合概率分布,然后这就是构建的基础模型,然后再给定输入数据集x,根据贝叶斯定理求出后验概率最大的输出y。
2、朴素贝叶斯算法描述
一般的朴素贝叶斯分类算法的过程如下:
(1)从网络上获取数据,然后对数据进行分类,并标记。
(2)将分好类的数据进行中文分词。
(3)将数据文本中垃圾词语去除。
(4)将上面整理好的词条组合成特征组,计算词条的频率信息。
(5)通过计算得到的词条的频率信息,计算出词条再各个类别文本的先验概率。
(6)再次输入新的数据文本,进行中文分词,去除垃圾词语,合成特征组。
(7)将新的数据样本的特征词条计算得到的先验概率带入朴素贝叶斯公式当中,计算得到后验概率,那么计算得到的最大概率的那个对应类别就是新闻文本的类别。
3、新闻文本的获取及处理
对于新闻数据的获取途径主要是从新闻官网上进行获取,对于一般的新闻网站,可以采用BeautifulSoup库的方法编写代码爬取页面数据,然后对页面数据中的HTML标签进行去除。而对于较为复杂的、大量的页面新闻,甚至具有反爬取处理的网站,就需要使用scrapy框架和代理池的配合来爬取页面数据。
4、分类器的构建
与英文可以通过非字母的方式进行语句的分割,但是新闻内容中都是中文文本,无法使用这种方式。这里使用第三方的中文分词:jieba。使用jieba将中文的语句进行分割,并标记好各自的类别。
在分词完成之后,会发现有很多垃圾词汇(指与分类无关的词汇,比如:的、是、在等),过多的垃圾词汇会降低文本数据的分类的准确率,这里需要自定义一个去除垃圾词汇的规则来去除垃圾词汇。那么,去除垃圾词汇之后的剩余的所有的分词,将这些分词全部用来训练朴素贝叶斯分类器。除此之外,h还要对训练集中的所有分词进行词频的统计,将词频较高的分词排列在前面。排列完成之后,将分词进行文本向量化。
由于利用朴素贝叶斯分类器进行新闻文本分类时,需要计算各个分词向量的概率,然后将这些概率进行相乘,得到乘积,使用这个乘积来获得这个新闻对应的类别。但是如果这个词向量中有一个的概率是0,那么最后分类的结果也是0,无法完成新闻的分类。本文使用拉普拉斯平滑的方法,将所有词向量的出现的词频数增加1,也就是由之前的最低词频0变成现在的最低词频1,然后最低分母初始化为2,这样就阻止了出现0的概率。
为了更加快速构建文本分类器,本文直接使用sklearn库里面的naive_bayes方法直接构建分类器,采用先验概率为多项式分布的朴素贝叶斯方法来进行构建。在sklearn中我们可以通过观察多次去掉多少个高频词的个数和最终检测率的关系,这里绘制出高频词(deleteNs)和准确率之间的关系来选择本文最终决定删除高频词的个数。
通过观察上图,本文最终选定deleteNS的个数为810,然后使用去掉高频词的个数为810,构建新闻分类的朴素贝叶斯分类器。最终测试的分类精确度为79.368%。
5、问题及改进
朴素贝叶斯算法是由贝叶斯定理发展而来,算法比较简单,对于分类问题有着比较稳定的分类效率。同时,朴素贝叶斯分类器对于小规模的数据分类表现很好,并且适合增量式训练。除此之外,朴素贝叶斯算法对于缺失数据不太敏感,用于文本分类效果较好。理论上来说,朴素贝叶斯分类算法与其他分类算法相比误差较小,但是在实际情况上来看,当属性个数比较多的情况下或者各个属性之间相关性比较大时候,分类效果并不是很好,只有在各个属性之间的相关性较小的情况下,朴素贝叶斯算法才能达到较好的分类效果。对于这种情况,可以通过改进部分属性的关联度,也就是半朴素贝叶斯算法。由于朴素贝叶斯是在假设各个条件相互独立的前提下求出的先验概率,但是在现实情况下先验概率未必准确,所以预测效果可能没有那么好。除此之外,朴素贝叶斯算法对输入数据的形式也有很大的敏感性。
参考文献:
[1]崔哲.基于朴素贝叶斯方法的文本分类研究[D].河北科技大学,2018.
[3]麦好.机器学习实践指南[M].机械工业出版社,2016.
韩洪勇,姜锦琨,杨超然,陈照奇.基于朴素贝叶斯的新闻文本分类[J].科技风,2020(14):223.
分享:
党的二十大报告擘画了全面建设社会主义现代化国家的宏伟蓝图,指明了中国式现代化道路的前进方向。在建设社会主义文化强国的新征程中,如何打造一流的出版学科,助推出版业高质量发展,应该是新时代出版工作者和出版研究人员的重要议题。新时代赋予出版新使命。作为出版业发展的基础性学科——出版学,在学科专业发展中必须发挥行业主体性作用,建构完整的学科体系。
2023-07-27随着信息技术的发展,社会对电子图书的需求持续增加。在此背景下,为满足社会需求,数字出版应运而生。数字出版是一种以互联网为传输介质,通过网络化阅读、数字化生产等手段,可满足新时代需求的全新出版方式。相较于传统出版方式,数字出版具有更强的交互性、传播性以及拓展性,可以满足人们在新时代的阅读需求,但同时其也使图书校对工作面临新的挑战。
2022-03-08随着国家对数字教材的重视及教学模式的变革,VR技术在教学教材上的应用也获得快速发展。VR教材创新了教学方式,给出版社带来了多元化的商业价值。VR教材作为一个新兴事物,其在发展过程中也面临一系列问题。作为出版社,其可从内容优化、人才培养、营销创新层面入手,规避和解决VR技术融于教材所产生的问题,实现VR教材的量化出版与使用。
2022-03-08随着科学技术的飞速发展,出版业转型升级、融合发展的步伐进一步加快。新兴媒体的出现与蓬勃发展,不仅改变了媒体行业,也改变了整个时代的信息传播。新时代对编辑工作者的思想政治素质有了更高的要求。编辑不仅要读懂某一种类型的图书,还要能评审一类专业性内容。一本书、一份论文、一篇文章的出版或发表与否,编辑有决定性作用。
2022-01-03图书编校的质量会影响到图书的市场口碑,进而影响到出版社的相应工作,所以对图书编校过程中存在的问题进行研究具有现实意义。现阶段,网络在各行各业的发展中得到了普遍应用,图书编校工作的开展也受到了网络应用的影响。因此,本文对互联网环境下如何提高图书编校质量进行分析与讨论,旨在为现阶段的工作实践提供借鉴。
2021-11-11新媒体时代的高速发展给传统的图书出版行业带来了无比巨大的冲击与挑战,人们可以随时随地从多种渠道快速、便捷地获取知识和传播信息。一方面,从纸媒到数字化这种阅读形式和习惯的改变降低了人们对图书的依赖性;另一方面,受众群体获取信息的个性化需求日渐凸显。因此,图书产品如何更好地满足各类用户需求,值得编辑不断深入思考。
2021-11-01书籍是人类文明的载体,是千万年来知识与智慧的结晶,是人类经验的传承。书籍对于人类的重要性不言而喻,而书籍的产生需要经过策划、编辑、出版、装订、发行等过程。编辑出版是书本从构思到面世过程当中的一个非常重要的组成部分,很大程度上影响着图书的质量和读者的感受。因此,本次就以编辑出版,谈谈自己的理解。
2021-11-01随着新型数字基础设施的建设和普及,全国各地区正拥抱数字经济发展红利,努力在新的赛道实现突破,出版行业亦是如此,数字化出版模式成为潮流。文章从阐述信息化时代的数字化出版概况入手,进一步分析了数字化出版带来的影响,介绍了当前出版数字化过程中的问题,最后提出了推动出版数字化进程的措施。
2021-08-12随着时代的变革,社会的发展,图书编辑进入新的时代。在新的时代里,对图书编辑能力提出了新的更高的要求。如果具有了适应新时代要求的图书编辑能力,则能够较好地开展图书编辑工作,不断提升图书编辑质量,产生更大的社会效益和经济效益,为我国图书事业发展和繁荣贡献力量。因此,作为新时代的图书编辑,必须不断提升自身的图书编辑能力。
2021-08-12社会经济转型发展下,图书出版行业也步入新的起点,面临着新的挑战和要求,而图书编辑作为主力支撑,其创新意识是决定其创新能力、水平的逻辑起点,在助力图书出版质量、谋求市场竞争力中发挥着关键作用,已然成为关注的焦点。故而,本文将着眼于图书编辑创新意识培养的现实意义,结合创新意识发展趋势和现存问题,提出培养创新意识的有效策略。
2021-08-12我要评论
期刊名称:编辑之友
期刊人气:1412
主管单位:山西出版传媒集团有限责任公司
主办单位:山西三晋报刊传媒集团有限责任公司
出版地方:山西
专业分类:科技
国际刊号:1003-6687
国内刊号:14-1066/G2
邮发代号:22-64
创刊时间:1981年
发行周期:月刊
期刊开本:大16开
见刊时间:1年以上
影响因子:1.201
影响因子:1.240
影响因子:1.038
影响因子:2.794
影响因子:2.640
400-069-1609
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!