91学术服务平台

您好,欢迎来到91学术官网!业务合作:91xueshu@sina.com,站长邮箱:91xszz@sina.com

发布论文

论文咨询

多维度特征增强的作文自动评分

  2023-09-06    31  上传者:管理员

摘要:作文自动评分是自然语言处理技术在教育领域的重要应用。作文评分需要从多个维度对作文进行评价,直接将预训练语言模型应用在作文自动评分领域,其性能并不理想。文章提出了一种多维度特征增强的作文自动评分方法,首先采用卷积神经网络、长短期记忆网络和自注意力网络,分别捕获局部语义特征、全局语义特征和单词语义相关特征,其次利用BERT模型的高层表示来提取深层语义特征,最后采用多维度语义特征增强预训练语言模型的语义特征进行作文自动评分。在公开数据集ASAP上的实验结果表明,该方法能够有效提升长文本数据子集上的性能,相比于基线模型,性能提升显著。

  • 关键词:
  • 作文自动评分
  • 特征增强
  • 特征融合
  • 计算机应用
  • 计算机软件
  • 加入收藏

作文自动评分(Automatic Essay Scoring,AES)是一种依赖自然语言处理和机器学习技术自动评定学生作文质量的方法[1]。在很多考试中,作文写作都占据了重要的地位。然而,由于考试人数众多,采用人工方式进行阅卷费时费力。此外,尽管作文评分时提供了评分准则,但由于个人理解不同,而且评分过程中不可避免受到情绪、性格和偏见等主观因素的影响,导致评分存在一定的主观性,多个评分人的评分差异可能较大。AES系统能够快速高效地对大量作文进行自动评价,不仅显著缩短了评分的时间、降低了成本,而且提高了作文评分的一致性、促进写作技能提高和实现及时反馈[2]。

传统的AES系统通过提取作文中的语句结构[3]、拼写[4]、n-gram[5]、内容一致性和连贯性[6],以及主题等特征[7],采用逻辑回归[8]、支持向量机[9]、随机森林[10],以及排序算法[11]等方法来进行评分。而基于神经网络的方法可以自动学习作文的复杂表征,往往能带来更好的评分效果[12,13,14]。然而,单一的神经网络模型不能在多个维度获取作文语义特征,其性能受到了限制。预训练语言模型在自然语言处理任务中展现出优秀的性能,但将其直接应用到作文自动评分领域,性能并不理想。究其原因,主要是因为作文通常为长文本,采用BERT等预训练语言模型时可能会丢失关键语义特征。此外,预训练语料与作文语料之间存在显著的差异,这可能导致模型存在“偏见”,从而影响其性能[15]。

为了更好地提取作文不同维度的特征并对BERT提取的深度语义特征进行增强,文章提出了一种创新的多维度特征增强的作文自动评分模型(Multi-Dimensional Feature Enhancement,MDFE)。MDFE模型结合了多种神经网络结构,旨在全面捕捉作文的丰富语义信息。首先,为了获取作文中的局部单词特征,MDFE模型采用了卷积神经网络(CNN),通过卷积操作,模型能够有效捕获词与词之间的局部关联信息,从而更好地理解作文中每个单词的语义含义,增强作文局部特征的表达能力;其次,为了获取作文的全局语义特征,MDFE模型采用了长短期记忆网络(LSTM),LSTM是一种递归神经网络,可以对文章进行序列建模,理解上下文信息,并提取全局的语义特征,通过LSTM,MDFE能够更好地捕捉作文整体的语义结构,加强对作文整体意思和脉络的把握;为了解决长文本作文中的长距离依赖问题,MDFE模型引入了自注意力机制,自注意力机制能够计算单词之间的互相影响,并获取词与词之间的语义相关特征,有效捕捉长距离依赖关系,进一步增强作文语义特征的建模能力;为了更精准地提取作文的深层语义特征,MDFE模型采用了预训练语言模型BERT的深层语义信息作为作文特征表示。将BERT的深层语义特征与多种神经网络模型获取的特征相融合,有助于全面挖掘作文的语义信息。文章的主要贡献如下:

(1)针对作文在评分过程中需要从局部和全局等多种角度进行评价的特点,文章提出的模型MDFE采用多种神经网络模型分别从局部语义特征、全局语义特征和单词的语义相关特征等多种维度提取作文语义特征。

(2)针对BERT等预训练语言模型语料在作文自动评分中存在“偏见”和长文中丢失关键信息问题,文章通过将多维度特征与BERT深层语义特征相融合以弥补BERT长文本处理的不足,同时减轻模型的偏见问题。

(3)提出的MDFE模型在ASAP数据集的8个子集上进行了实验,实验结果表明,MDFE能够有效地融合局部语义特征、全局语义特征、单词的语义相关特征和深层语义特征,能够有效提升长作文自动评分的性能,相比于基线模型,MDFE具有显著的优势。


1、相关工作


随着人工智能技术的不断成熟,作文自动评分成为一个备受关注的研究领域,吸引了学术界、教育界和产业界的广泛关注。在作文自动评分领域,近年来神经网络和预训练语言模型已经取得了许多研究进展。

神经网络模型通过对作文进行编码,提取其语义特征,并根据这些特征来进行作文自动评分。DONG等提出句法特征、语法特征等手工特征能够有效地提升神经网络模型的性能,并具有更好的可解释性[16]。TAFGIPOUR等采用CNN和LSTM进行作文自动评分,作者指出采用神经网络方法自动提取特征的性能要显著优于手工设计特征的性能[12]。DONG等比较了RNN和CNN的优势,并提出使用CNN-LSTM的混合神经网络的作文评分性能更好[17]。FARAG等在神经网络模型训练中引入了语义连贯性特征,并采用联合学习的训练方式[18]。周险兵等采用CNN、LSTM和手工特征进行作文自动评分,验证了混合模型比单一模型的性能更好[1]。

预训练语言模型能够捕获作文中的语义信息和句法信息,并且可以学习到作文中的关键词、短语和句式等深层次的语义特征。RODRIGUZE等首次将BERT和XLNet等大型预训练模型应用于作文自动评分的任务[19]。MAYFIELD等提出了微调BERT的方法[20]。YANG等提出了融合回归和排序损失来微调BERT模型[21]。然而,许多实验表明,直接采用预训练语言模型进行作文自动评分,其性能并不优于传统的神经网络方法。针对该问题,WANG等认为预训练语言模型在预训练阶段处理的都是句子级文本,而作文评分需要在文档级别微调模型,任务存在不一致性[22]。此外,作文数据集中的作文数量较少,无法通过微调获得有效的多层次语义表征,且对于长文本,还存在信息丢失的问题。研究表明,将预训练模型与深度神经网络模型相结合后能够有效地提升预训练语言模型的性能。LIU等将BERT作为特征提取器,并与前馈神经网络结合进行自动化作文评分[23]。于明诚等将预训练模型以及一维卷积模块分别捕捉句子短语单词、句子等语义特征,并将主题特征融入进行进一步学习和预测分数[24]。LEE等通过在BERT编码层之上添加双向LSTM,建模作文的长距离依赖关系,对作文进行自动评分[25]。实验结果表明,从不同维度提取特征能够有效提升作文自动评分的性能。


2、多维度特征增强的作文自动评分方法


文章提出的多维度特征增强的作文自动评分模型MDFE如图1所示。MDFE分为两个模块,基于神经网络的特征提取模块和基于预训练的特征提取模块。基于神经网络的特征提取模块包括基于CNN获取局部语义特征模块、基于LSTM的获取全局语义特征模块、基于Self-Attention获取单词的语义相关特征模块。首先为了获取作文文本不同维度的特征,使用CNN、LSTM和Self-Attention分别提取作文文本局部语义特征、全局语义特征和单词的语义相关特征。其次,为了更好地利用BERT不同层次提取的不同维度特征,将作文作为BERT模型的输入,获取最后一层的输出作为深层语义特征;然后,为了缓解长文本信息丢失的问题,MDFE在每个模块中采用注意力机制提取文本的浅层语义特征作为作文语义特征的增强;最后将上述四种特征融合,进行作文自动评分。

图1多维度特征增强的作文自动评分方法模型MDFE  

2.1基于神经网络的特征提取模块

在局部语义提取、全局语义提取和单词的语义相关提取三个模块中,设输入文本的嵌入表示D={x1,x2,…,x N},xi∈ℝd,xi为词嵌入表示,d为词向量维度。

2.1.1 CNN层

词汇知识是写作的一个关键因素,因为单词词汇量可以提高写作表现,尤其是提高写作的精确性和表达能力[26]。显然,较好地提取作文的局部语义特征能够提高评分性能。因此文章采用CNN捕捉作文的局部语义特征。CNN计算公式如下:

其中W为权重,xi:i+m-1为输入文本xi中第i到i+m-1列,b为偏置。

2.1.2 LSTM层

作文质量的评价受到语义连贯性和上下文整体表达效果的重要影响[1]。LSTM能够较好地捕捉文本的时序信息和保持文本的长期依赖关系。为了更好地提取语义连贯信息和上下文信息,采用LSTM来提取作文文本的全局语义特征。LSTM的计算公式如下:

其中x't为t时刻的输入向量,ht为输出向量,W{i,f,c,o},U{i,f,c,o}为权重矩阵,b{i,f,c,o}为偏置项,符号∘表示矩阵乘法。

2.1.3自注意力层

使用自注意力机制的目的是让模型在处理序列数据时能够准确捕捉到每个位置与其他位置之间的语义关系,从而实现对整个文本的全局理解和把握。该方法可以使每个词都能够关注到整篇文本的语义信息,并通过一定的权重分配来确定词语在模型中的重要性。

其中,xi为词嵌入表示,WQuery、WKey、WValue为权重矩阵。

2.1.4池化层

SHEN等[27]指出同时使用最大池化和平均池化来融合特征的性能明显优于单一池化策略。此外,为了缓解长文本信息丢失的问题,在该模块中引入注意力机制。因此,本文使用双池化操作,并且在模块中加入注意力机制,其计算公式如下:

其中,xi为词嵌入表示,Pmax,Pavg为各个池化层的特征向量,Patt为注意力机制提取的特征,Concat为拼接函数。

2.2基于预训练的特征提取模块

BERT采用了深层双向Transformer架构,并使用自注意力机制和位置编码技术,提高了模型对长距离语义依存信息的学习能力,并加强了对局部和全局特征的捕捉能力。同时,BERT采用基于上下文的词向量表示,有效地解决了一词多义的问题,并通过缓解数据集规模有限所带来的欠拟合问题,提高了模型的泛化能力。因此,采用BERT模型对作文进行编码。

前人的研究表明,BERT不同层次能够捕获不同维度的语义[28]。具体而言,BERT的低层能够提取短语级别浅层语义信息,中间层能够捕获句法特征,而高层能够捕获深层次的语义特征。文章采用BERT的高层的深层语义特征进行作文自动评分。

其中,X表示作文文本,BERT_ℎ(·)表示BERT的高层文本的隐藏表示。

为了更好地获取BERT的高层的深层语义特征,文章沿用了平均池化和最大池化的策略,并采用全连接层进行降维。

2.3模型训练

综上所述,提出的MDFE模型采用CNN提取局部语义特征、采用LSTM提取全局语义特征、采用自注意力机制提取单词的语义相关特征、采用BERT提取深层语义特征。最终将不同维度的语义特征进行融合,采用Sigmoid函数获得作文的评分。具体而言,评分的计算公式如下:

其中,W1和W2表示权重矩阵,b表示偏置,Score为预测的作文分数,Sc为CNN层的语义表示,Sl为LSTM层的语义表示,Ss为自注意力层的语义表示,St为预训练提取的语义表示。

使用均方误差损失函数来训练模型。

其中,k为样本数,y为真实值,yi为预测值。


3、实验与结果分析


3.1实验数据和评估指标

ASAP数据集来自Kaggle竞赛,其中包含8个不同类型的论文提示,包括议论文、回应论文和叙事论文。每篇作文均由专业教师进行评分。表1提供了该数据集的部分统计信息。该数据集中的文本长度不一,D3-D6子集相对较短,而其他子集的文本长度则较长。值得注意的是,D8子集的文本长度最长。文章使用QWK在ASAP数据集上评估评分性能,这是ASAP竞赛中的官方度量。

表1 ASAP数据集信息  

3.2实验设置

由于比赛测试集没有发布,为了和前人的工作保持一致,文章采用了5折交叉验证,每一折按照6:2:2随机分为训练集、验证集和测试集。在训练过程中,CNN层的结构和参数如下:卷积核大小为5,过滤器数量为300,填充方式为‘same’,激活函数为RELU。LSTM层和自注意力层的输出维度为300.以上的神经网络模型的输入为随机初始化的词向量,维度为50.BERT采用bert-base-uncased,其隐状态向量的维度为768,多头自注意力头数为12,编码器层数为12,在本模型中只使用了第12层,并冻结了其余11层。Dense Layer层使用两个输出维度分别为200和300,激活函数为RELU的全连接层。FNN Layer层使用输出维度为100,激活函数为swish的全连接层,分别在全连接层前后加入了概率为0.2和0.1的Dropout.batch-size设置为16,epochs设置为20,优化函数为Nadam,学习率设置为0.01,损失函数为MSE.

3.3实验结果分析

为了验证文章提出的多维度特征增强的作文自动评分模型MDFE的有效性,文章对比了以下基线方法:

CNN、LSTM[12]方法:分别采用CNN和LSTM对作文进行评分;

CNN+LSTM+ATT[17]:比较了RNN和CNN的优势,并提出使用CNN-LSTM的双层神经网络对作文评测。

BERT2[21]:结合回归和排名来微调BERT模型;

BERT+XLNet[19]:将多个BERT和XLNet的预测结果进行平均并作为最终作文的预测分数;

BERT+SST+DAT[29]:提出了一种领域自适应的框架,通过引入自监督任务来提取不同领域之间的共享知识,从而改善了自动化作文评分模型的适应性;

Tran-BERT-MS-ML-R[22]:利用多尺度来表示论文,同时还从使用多重损失和迁移学习来进一步提升性能;

MDFE:文章提出的多维度特征增强的作文自动评分模型。

表2列出了多维度特征增强的作文自动评分模型和前人工作的对比实验结果表明:

表2与基线方法的性能对比(*表示直接引用原文结果)

(1)CNN能够提取作文的局部语义特征,LSTM能够捕捉长期依赖关系,但单一的神经网络模型并不能准确地理解作文语义内容,性能较低。相对而言,混合的神经网络CNN+LSTM+ATT性能提升显著。这说明混合的神经网络模型能够更好地对作文语义内容进行表征,不同模型的语义能够相互补充从而更好地对作文进行评分。

(2)BERT模型的性能优于传统神经网络方法。BERT通过双向建模上下文信息,能够更好地理解和捕捉作文中的语义和语境信息。然而,采用多种预训练语言模型的混合模型并没有显著提升性能,甚至BERT+XLNet模型性能下降较多。混合多种预训练语言模型会引入更多的参数和复杂性,可能导致模型庞大和冗余,甚至模型之间可能产生冲突和干扰,从而导致性能不佳。此外,预训练样本和作文数据集样本之间存在较大差异,这使得学习过程中可能存在偏见,也是性能不佳的重要原因之一。

(3)文章提出MDEF模型在D4、D5和D6三个短文本作文数据集中性能与基线模型性能可比,在其他的5个子集上取得了最佳性能,尤其是在所有长文本数据集上取得了最佳性能。总体而言,MDFE模型在所有8个子集上的平均性能最佳。实验结果表明,相比于基线模型,MDFE模型具有较好的泛化性能,能够更好地提取长文本作文的局部语义特征、全局语义特征、单词的语义相关特征、句法和深层语义特征。此外,MDFE模型有效结合了CNN、LSTM和自注意力机制,能够更好地从作文数据集本身学习语义特征,从而缓解了预训练模型和下游任务之间差异导致的性能下降问题。

3.4消融实验

为了探究不同特征提取模块对模型整体性能的影响,进行了消融实验。CNN&BERT、LSTM&BERT、Self&BERT、CNN&LSTM&BERT、CNN&Self&BERT和LSTM&Self&BERT分别表示不同网络模型之间的组合。

表3不同结构网络及其组合对模型性能的影响

表3展示了MDFE模型及其他模块的性能对比。研究结果表明:首先,单一的预训练模型较低,将预训练模型与其他神经网络模型相结合的混合模型性能提升显著,表明神经网络模型提取的语义特征对预训练模型提取的特征在整体性能上有一定加强效果。其次,CNN&Self&BERT相比其他混合模型,性能小幅度下降0.58%,虽然不同模型之间提取的作文侧重点不同,可以相互融合,但不同的模型之间可能产生冲突和干扰,从而导致性能下降,因此模型之间的有效融合是提升模型性能的关键因素之一。最后,MDFE模型在所有的较长文本的作文数据上均性能较优,其中D8数据集平均长度最长,模型的性能提升1.38%,提升显著。在所有混合模型中,平均性能最佳,这是因为MDFE不但能够从不同角度提取作文语义特征,并且能够从更广泛的上下文中学习作文的多维度的语义特征,采用有效的融合机制后,能够解决不同模型之间的冲突和干扰,显著提升作文自动评分性能。实验结果表明,不同的网络模型虽然在语义提取能力方面存在差异,但所提取的作文语义可以相互补充,使用多维度特征增强的方式能够有效提升AES性能。


4、结论


文章围绕现有的自动作文评分模型在理解多维度特征和处理长文本信息时存在的问题,提出了一种多维度特征增强的作文自动评分方法MDFE。MDFE模型利用CNN提取文本的局部语义特征、利用LSTM提取文本的全局语义特征、利用Self-Attention提取作文的单词的语义相关特征、利用BERT提取作文的深层语义特征。在公开的作文评分数据集ASAP上的实验结果表明,文章提出的MDFE模型能够更有效地学习上述四种特征。相比于最近的基线模型,MDFE表现出更强的性能。

当前的自动评分任务主要针对英文文本,但是随着全球化的发展,跨语言自动评分也将变得越来越重要。因此,需要开发跨语言自动评分系统。此外,在作文自动评分过程中,给出具体的建议从而提升作文写作水平也是未来需要进一步研究的方向。


参考文献:

[1] 周险兵,樊小超,任鸽,等.基于多层次语义特征的英文作文自动评分方法[J.计算机应用,2021,41(08).2205-2211.

[2] 周明,贾艳明,周彩兰,等.基于篇章结构的英文作文自动评分方法[J.计算机科学,2019,46(03);240-247.

[3]余立清.英语命题作文自动评分系统的研究与实现[DJ.武汉:华中师范大学,2019.

[4]刘浩坤.作文自动评分算法的研究与设计[D].合肥:中国科学技术大学,2018.

[5]赵瑞雪.基于词向量聚类及随机森林的作文自动评分研究[J.微型电脑应用,2020,36(06):104-107.


基金资助:国家自然科学基金项目(62066044; 62167008; 62006130);新疆维吾尔自治区自然科学基金项目(2021D01B72);


文章来源:陈宇航,杨勇,帕力旦·吐尔逊.多维度特征增强的作文自动评分[J].新疆师范大学学报(自然科学版),2023,42(03):43-49+58.

分享:

91学术论文范文

相关论文

推荐期刊

网友评论

加载更多

我要评论

计算机学报

期刊名称:计算机学报

期刊人气:3869

期刊详情

主管单位:中国科学院

主办单位:中国科学院计算技术研究所,中国计算机学会

出版地方:北京

专业分类:计算机

国际刊号:0254-4164

国内刊号:11-1826/TP

邮发代号:2-833

创刊时间:1978年

发行周期:月刊

期刊开本:大16开

见刊时间:一年半以上

论文导航

查看更多

相关期刊

热门论文

【91学术】(www.91xueshu.com)属于综合性学术交流平台,信息来自源互联网共享,如有版权协议请告知删除,ICP备案:冀ICP备19018493号

400-069-1609

微信咨询

返回顶部

发布论文

上传文件

发布论文

上传文件

发布论文

您的论文已提交,我们会尽快联系您,请耐心等待!

知 道 了

登录

点击换一张
点击换一张
已经有账号?立即登录
已经有账号?立即登录

找回密码

找回密码

你的密码已发送到您的邮箱,请查看!

确 定