摘要:中文分词技术目前存在的一个问题是针对特定领域未登录词识别效率较低的问题。建筑类文本分词由于受到专业本身词语的特点等限制,分词时对未登录词的识别效果不太好。提出一种非监督的基于改进算法与邻接熵结合的方法来进行未登录词的识别。首先通过算法对文本间相互依赖值比较大的字串进行识别,然后通过停用词表和语料库进行筛选过滤得到候选词典,计算候选词典之间的邻接熵,设定阈值确定最后的未登录词,最后将识别的未登录词作为加入到专业词典进行分词。通过实验证明建筑领域文本在使用提出的算法时对于未登录词有较好的识别效果,准确率较算法提高了15.92%,召回率提高了7.61%,因此最终的分词效果在准确率和召回率分别可达到82.15%、80.45%。
加入收藏
中文自然语言处理的前提操作是进行中文分词,分词结果的好坏对后续的研究有着至关重要的作用。目前中文分词技术存在的两个问题,分别是消除歧义的问题[1]和未登录词识别[2,3]的问题。其中60%左右的原因是未登录词识别不准确导致分词准确率低。因此想要提高中文分词效果的一个方向就是提高未登录词识别的效率。
未登录词(Out-of-Vocabulary,OOV)指的是那些刚出现的词语,还没有被现有的词典收录,包括人名、地名、网络新词[4]、事件名称、派生词等一些新兴词汇。例如,“人鱼线”、“吃瓜群众”、“东风快递”等等。随着社会的发展,会出现描述当前社会现状的新鲜词汇,是人们新创造的词汇,词典不可能无限大同时也不能随时的记录新出词汇。因此对未登录词的自动识别就显得越发重要。
1、相关工作
目前,普遍的未登录词识别方法分为以下两类:基于规则的方法和基于统计的方法[4,5]。其中基于规则的未登录词的识别是通过构词学的相关原理和词性特征进行构建规则。然后通过构建自定义的规则进行识别发现未登录词。这种方法是采用了汉语的构词法原则来构建规则,通过规则过滤掉不符合规则的垃圾字串。将符合规则的字串留下作为我识别到的未登录词。基于规则的未登录词识别方法对于专业性要求较强,针对于不同领域的文本需要制定不同的规则,不能适应文本的多样性,对于基本没有规则的网络新词更是无法应对;基于统计的未登录词的识别通常是需要一个很大规模的语料库,通过文本中某个统计量的特征进行统计,计算出概率比较高的字串作为未登录词,这种识别方法方式灵活且适用于各个领域,但是如果在某领域语料库不充足时准确率则会很低。目前主流的方法是采用统计和规则相结合的方法,发挥两个方法各自的优势从而提高为登录词的识别效果。
Pecina等[6]通过对50多种不同的统计量进行词汇识别实验,最终结果证明,PMI算法在判断词汇相关度方面是最好的算法之一,但是单纯的PMI存在的缺点是会过高的估计频率低而相关度高的词汇,就会导致这种低频高相关度的垃圾字串会被算法保留下来。因此有学者在此基础上进行了改善,有的提出PMI和log-likehold方法结合的方法[7,8]。其中张峰等[9]将与构词规则相结合,先通过PMI计算字串间的相关度,然后人工建立的词语搭配前缀和后缀库,进行过滤垃圾词汇。林自芳[10]等在新词识别时通过改进首尾单字成词并结合词内部位置成词的概率,然后进行统计提高了识别率。梁颖红等[11]利用PMI和NC-value相结合,提高了三个字以上的未登录词的识别率,但是和NC-value两者并不能独立的过滤垃圾字串。夭荣朋等[12]。利用元递增算法,提取未登录词,通过对提取出来的候选登录词使用停用词、相应词典,等多重条件进行筛选,取得了不错的效果。Pazienza等[13]在PMI算法上进行了改进提出了PMIn算法,当引入三个及以上联合概率时,PMIn能够克服单纯的PMIn算法的缺点。杜丽萍等[14]通过实验证明在PMIn中当n等于3时效率最高。本文在PMI3算法的基础上,考虑上下文邻接字与当前字串的关系引入邻接熵来判断成词边界。首先通过PMI3算法得到候选登录词,然后通过候选登录词的邻接熵来过滤其中的垃圾串,最终确定未登录词,将识别的未登录词加入到领域词典分词时使用。该方法结合了邻接熵能表示独立词在文中的自由程度的性质和互信息能表示词内部的依赖程度的性质,使得成词率和准确率得到提高。
2、与邻接熵结合方法
本文采取的是算法与邻接熵结合的方法。首先,我们需要对获取到的原始文本进行预处理操作,目的是去除干扰识别的标点符号、特殊符号、HTML标签、URL链接、数字等。在预处理完成后使用算法进行分词识别出5元字串及5元以下字串,通过Jieba分词库进行过滤,将过滤后的词语作为候选登录词进行邻接熵的计算,将达到阈值的词作为最终的未登录词,加入到专业领域词典,使用Jieba分词系统加载改词典进行分词。图1为本文的新词识别流程图,图2为分词流程图。
2.1字符串成词标准
评价字符串是否能评价为是一个独立的词,通常使用的是信息论中的互信息概念,互信息(PointwiseMutualInformation,PMI)是用来计算两个物体间相关的程度。互信息值越大,代表两个物体相关性越强,若PMI(x,y)>0则表示x和y相互关联,若,则表示和相互独立。因此我们可以用互信息来获取字符串之间的成词概率。互信息公式其定义如下:
其中p(x,y)是两个词出现的联合概率,p(x)和p(y)是单个词出现的概率。
Bouma[15]对传统的PMI算法进行了改进提出了PMIn算法,其公式如下:
其中当n=1时,PMIn算法就是PMI算法,该算法的改进主要是将原来简单的二元字串独立成词扩展到可以多元字串成词。黄昌宁等[15]指出,至少有99%的词语长度都是在五个字以下,所以一般n取上限值为5.杜丽萍等从实验中证明PMI3算法比PMI算法的精度高而且当n取3时,算法的效率最优,因此本文使用的是PMI3算法。
从成词的规则中分析可得,如果文本中有两个字串能组成独立的词,那么它的左右邻接字集应该比较丰富。因此我们可以使用邻接熵来判断词周围的邻接字丰富程度。候选词的左邻接熵定义为该候选词左邻接字集中所有相邻字的信息熵之和,因此若左邻接字集中种类越多,候选词的左信息熵就越大,候选词左边越明显的跟其他类别的字不能结合。相反的如果左边种类越少,则信息熵越小,候选词与左边的字越容易结合成一个新的词语。左右信息熵公式如下:
其中HL(w)表示候选词语W的左信息熵,C表示候选词W的左邻接字集,P(wL|w)表示当候选词w左边邻接字是WL的条件概率,HR(w)表示候选词w的右信息熵,D是候选词的右邻接字集,P(wR|w)候选词w右边邻接字是wR的条件概率,因此,若HL(w)左熵大于指定阈值,则左边界确定;若HR(w)右熵大于指定阈值,则右边界确定。
2.2算法步骤
(1)预处理过程
因为搜集的文本语料中存在大量的干扰数据,因此首先需要进行预处理操作,将文本按照标点符号、特殊符号进行断句。然后通过停顿词表进行过滤无用字串,将进行切分多条长短不等的短句。
(2)通过互信息得到候选未登录词
将文本语料从左到右依次进行扩展,同时统计词语和右邻接字出现的频率,若达到阈值则进行向右扩展组成新的词语,达到阈值的计算,如果小于阈值则加入候选词集合,对比分词库中的词语进行过滤,否则就继续向右扩展。迭代进行扩展,最终形成候选未登录词集。
(3)计算邻接熵过滤得到未登录词OOV_List
计算第2步得到的候选未登录词的左右邻接熵,设置合适的阈值,将达到阈值的候选新词保留,得到最后的未登录词集。
(4)Jieba分词系统加载OOV_List,进行分词,得到最后的分词结果Word_res。
2.3实验结果评价标准
对于中文分词效果的评价标准常用准确率P(precision)、召回率R(recall)和F值。计算公式如下:
TP表示将正类预测为正类的个数,FP表示将负类预测为正类的个数,FN表示将正类预测为负类数。表示将负类预测为负类的个数,TP+FP则表示识别的所有未登录词的个数。TP+FN则是实验文本中所有未登录词的个数。
3、实验及结果分析
3.1实验数据
(1)100MB(约500万字)建筑领域语料,用于领域的新词发现。
(2)停用词典:哈尔滨工业大学停用词表(702个停用词)。
(3)Jieba词典:包含354895个词,是目前比较主流的词典之一,用于过滤候选未登录词中已登录词。
3.2实验环境
3.3实验结果分析
3.3.1未登录词识别结果及分析
本文中设置最大抽取词长为5,实验中邻接熵阈值设置为0.75,表2列举了设置不同词长的部分识别效果及样例。
通过统计数据可知,该算法对二字词和三字词的识别数目占识别总数的77.26%,对3字词以上的多字词识别数目占识别总数的20.93%,验证了本文算法在二字词三字词上有不错的识别能力,对于三字以上的词语也有一定的识别能力。结果中也有一些错误的登录词,例如“张拉时”,“振捣工人”,“建筑纪念性”等,其主要原因是因为,在获取到的语料中,同样的表述出现次数比较多,导致算法错误的判断成关联关系比较紧密。
将本文算法与常见的未登录词识别方法进行对比实验,结果如图3
方法一是使用传统PMI算法从预料中识别未登录词,方法二是使用传统的CRF算法从语料中识别未登录词,两种传统识别算法在三字词语及以上的识别方面效果较差。方法三是传统CRF算法加入互信息识别未登录词,从图3可以看出在加入互信息以后识别率和准确率都有不错的提升,说明加入互信息作为约束时可行的。方法四是使用PMI3算法,相对于单纯的PMI算法,通过加入3阶联合概率因子,所以在准确率和召回率上也有较好的提高,但是只是考虑到了词内的信息聚合程度,并没有考虑到词间的关系。方法五是在PMI3算法的基础上通过加入邻接熵这个约束,来使得未登录词识别同时考虑词内聚合程度和词间信息,确定了未登录词的边界问题。最终在准确率和召回率上都有较好的提升。
3.3.2分词结果及分析
本文通过算法与邻接熵的结合方法来进行未登录词的识别,并最终在建筑领域文本中得到了较为不错的提升。将识别的未登录词加入到建筑领域专业词典。然后通过Jieba分词系统进行分词,最后得最终的分词结果。通过设计实验来验证最终的分词效果本文设计了三个对比实验。实验1:关闭Jieba自带的未登录词识别功能,此时该分词系统仅依赖自带的词典进行分词。实验2:使用Jieba自带的未登录词识别功能,该系统的未登录词识别时利用HMM模型进行分词。实验3:加载通过有本文算法识别的未登录词组成的专业领域词典。实验结果举例见表2。
例句:线性体量拗成了平行于古罗马轴线的U型体量来回溯到古罗马的体量造型。设计师一直强调的线性体量是有方向性的,一个面即U型体量对着神庙的面。这个面是十分平整且规矩的,是具有古罗马历史精神的,因为柱廊+方正的造型很容易让人联想到古罗马时期的神庙。
通过表3可以看到:当关闭和未登录词识别功能时,Jieba分词系统未能识别“轴线”,“设计师”词汇,并且将“来回溯”这三个字分成“来”“回”两个字,将“方正”分为“方”和“正”两个单字,这是因为Jieba分词系统算法当遇到未识别的词语时会将新词切分成单个的字;当开启未登录词识别功能时,Jieba分词系统将“来回溯”这三个字识别成“来回”这个词,然而对于“体量”,“设计师”,“方正”这三个比较偏专业的词语,开启和关闭都未能正确分词;当加载专业领域词典时,发现可以将专业性较高的词汇能够正确切分。但也有将“回溯”切分成了“来回”这是因为在文本中“来回”的出现频率远高于“回溯”。
为了进一步验证本文算法在建筑领域的有效性,通过大量的建筑文本材料进行实验,统计上述三种分词方法的Precision、Recall、和F、切分得到词总数(CUT_SUM)、识别未登录词总数(OOV_SUM)。结果见表4。
从表3和图4可以看出Jieba分词系统在开启未登录词识别和加载系统词典后,未登录词增加了63,331个,从表3和图5可以看出Precision提高了2.06%,Recall提高了7.17%,F值提高了4.8%。在加载专业领域词典后,对于未登录词识别增加了5,183个,在原来的基础上Precision提高了1.14%,Recall提高了0.14,F值提高了0.47%。可见在加载了本文算法后对于未登录词识别有明显提高,在新词识别方面也有不错的纠错效果,原因在于通过双重约束使得构建的专业词典更准确。同时准确率、召回率、F值都再次有所提高。再次验证了本文方法在建筑领域分词效果方面是有明显提升效果。
3、结束语
本文在前人的基础上,通过使用算法与邻接熵结合的方法进行未登录词的识别,通过在大量建筑类文本实验及对比其他相关算法,最终验证了对未登录词识别的提升效果和在建筑领域文本的中文分词的提升效果。
该算法下一步工作是针对不同语料库规模,语料特征,学习更多专家的经验,在保证分词效率和减少资源的情况下找出一种能自适应确定邻接熵阈值的方法,进一步提高分词系统的自动化处理能力。
文章来源:李鹏,光永星,乔天玲,操峻岩.面向建筑领域的中文分词方法研究[J].电脑与信息技术,2021,29(05):67-72
分享:
对于有潜在攻击性行为倾向的个体来说,城市环境的各种构成要素都可能成为激发其消极意识的诱因。其中,色彩作为人们首先接触到的视觉元素,其影响力尤为显著[2]。不同的色彩能够引发人们不同的情绪反应和认知偏见,进而影响他们的行为选择。为了更全面地理解城市环境对人行为的影响,需要从多个角度对环境的构成要素进行深入研究。
2024-11-14实施成效,2022年两部委再次联合组织开展以县域为单元的传统村落集中连片保护利用示范,聚焦传统建筑保护与活化利用、共建共治共享的工作机制、传统村落集中连片保护利用模式和县域统筹推进模式四大方面,促进形成不同类型、不同特点的传统村落保护利用路径和模式,总结可复制可推广的经验。
2024-11-14本文以广州萝岗福山循环经济产业园公用配套工程场地平整工程为例,旨在深入探究坡顶承受重型荷载工况下的高填方边坡工程,通过详尽的研究分析,为现场施工提供科学指导,确保边坡结构的稳固与安全,进而保障施工过程的顺利进行。同时,为未来类似工程的设计与实施提供宝贵的参考与借鉴。
2024-11-11桩基础在建筑工程中具有重要的地位和作用[1]。桩基的应用可以为建筑物提供坚固的基础支撑,增强结构的承载能力,控制地基变形,提升抗震性能,并适应各种复杂地质条件[2]。随着施工技术的不断优化和改进,桩基的应用领域已逐步扩展到地质条件复杂、环境条件苛刻的施工区域。
2024-11-11贵州大学的马克俭院士团队于1995年提出了空腹夹层板的楼盖体系,目前广泛用于高层建筑和大跨度建筑当中。空腹夹层板由上下肋梁、剪力键和表面薄板组成(如图1所示),以其建造使用的材料不同可分为钢筋混凝土空腹夹层版(如图2(a)所示)、钢空腹夹层板(如图2(b)所示)及组合结构空腹夹层板3类。
2024-11-09当前,人们对生活品质的追求越来越高,对于教育、医疗、交通、购物等公共设施服务的要求也越来越高。国家《“十四五”公共服务规划》的出台,让我们看到了国家对公共服务发展的新举措。
2024-08-24随着科技的不断进步,人们对生活质量的要求进一步提高,建筑业智能化升级已经成为很多地区关注的重点。智能建造作为一种新兴的建筑业发展模式,具备高效、精确、可持续的特点,被认为是未来建筑业发展的重要方向。
2024-08-24金属屋面是一种常见的建筑材料,具有重量轻、强度高、耐腐蚀、易加工等优点,因此在越来越多的大跨度建筑结构中得到了广泛应用。通常来说,金属屋面在建筑结构中发挥着重要的作用,其中的每一个环节都关系整个工程能否正常使用,所以在金属屋面施工过程中需要格外关注这些关键技术的质量。
2024-08-22岩土地基承载力特征值取值时应考虑取样手段、试验方法和其他因素对试验结果的影响,并对不同测试方法所得结果进行分析比较。当室内试验测试结果存在一定偏差或测试结果明显不符时,应进行原位测试。本文结合遵义市某建设项目根据室内试验确定岩石地基承载力特征值时取值偏低,为真实反映持力层承载力特征值进行岩石地基载荷试验。
2024-08-15随着国家减量化发展战略的实施,多地在部署城市总体规划时明确提出腾退建设用地、土地复垦还绿的工作方案[1]。土地复垦能够有效增加耕地面积,平衡因为城市化进程的推进,尤其是道路交通等基础设施项目和医疗、教育、棚户区改造等民生工程项目陆续投入建设引发的耕地占补指标失衡矛盾[2]。
2024-08-13人气:11210
人气:4534
人气:3859
人气:2954
人气:1873
我要评论
期刊名称:建筑结构
期刊人气:4087
主管单位:中华人民共和国住房和城乡建设部
主办单位:亚太建设科技信息研究院,中国建筑设计研究院、中国土木工程学会
出版地方:北京
专业分类:建筑
国际刊号:1000-6869
国内刊号:11-1931/TU
创刊时间:1971年
发行周期:半月刊
期刊开本:大16开
见刊时间:一年半以上
影响因子:1.745
影响因子:1.093
影响因子:1.922
影响因子:0.585
影响因子:0.000
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!