首页 > 论文范文 > 医药卫生论文 > 中医医学论文 > 中医基础理论论文 > 融合BERT模型与词汇增强的中医命名实体识别模型

融合BERT模型与词汇增强的中医命名实体识别模型

2024-06-18 120 上传者：管理员

摘要：现有的中医命名实体识别相关研究较少，基本都是基于中文病例做相关研究，在传统中医编写的病例文本中表现不佳。针对中医案例中命名实体密集且边界模糊难以划分的特点，提出了一种融合词汇增强和预训练模型的中医命名实体识别方法LEBERT-BILSTM-CRF。该方法从词汇增强和预训练模型融合的角度进行优化，将词汇信息输入到BERT模型中进行特征学习，达到划分词类边界和区分词类属性的目的，提高中医医案命名实体识别的精度。实验结果表明，在文中构建的中医病例数据集上针对10个实体进行命名实体识别时，提出的基于LEBERT-BILSTM-CRF的中医案例命名实体识别模型综合准确率、召回率、F1分别为88.69%,87.4%,88.1%,高于BERT-CRF,LEBERT-CRF等常用命名实体识别模型。

关键词：
BERT
BLSTM-CRF
中医案例
自然语言处理
词汇增强
加入收藏

1、引言

中医医案是中医传承与创新的主要载体之一，记录了中医诊疗的全过程，拥有层次丰富的医疗知识，具有人工智能服务的研究空间，如自然语言处理、智能问答等。但在如今医案的应用研究中，仍存在着数据利用率低、文本信息特征提取困难等问题。此外，中医医案是以长段且无序的非结构化文本为数据载体，其中包含了病人的疾病、症状、证候、处方及个人信息，且没有统一的标注语料和标注规范，导致传统的数据挖掘方法精度较低。

中医病历中包含了大量医疗信息，对中医案例进行实体识别是构建中医信息库的第一步。目前，针对实体识别的研究已经有很多，但是在中医案例方面的相关研究较少，中医实体识别方面仍存在一些亟待解决的问题，如实体边界模糊、实体歧义性等。针对中医医案中命名实体密集且边界模糊难以划分的特点，提出了一种融合词汇增强和预训练模型的中医命名实体识别方法。该方法从词汇增强和预训练模型融合的角度进行优化，通过优化后的预训练模型与BiLSTM准确地划分词类边界。条件随机场(Conditional Random Fields, CRF)用于区分不同词类属性标签，提高中医医案命名实体识别的精度。

2、相关工作

命名实体识别方法的发展整体上经历了基于规则与词典的方法，以条件随机场(CRF)为代表的统计机器学习和以循环神经网络(RNN)、预训练模型(BERT)为代表的深度学习3个阶段。基于规则与词典的方法和统计机器学习模型都需要依靠逻辑设计和训练语料中的统计信息来进行手工设计得到大量特征。这些统计学习方法的识别性能很大程度上依赖于特征的准确度，所以要求团队中要有语言学专家，十分费时费力[1,2,3]。

随着人工智能技术的快速发展，深度学习取得了长足的进步。深度学习的主要优势在于可以克服传统机器学习技术中需要人工提取特征的缺陷，无需复杂的特征工程，就能够从海量的数据中自动获取更加精确、抽象的信息，具备出色的泛化能力。

Zhao等[4]提出将实体识别看作分类任务，使用多标签卷积神经网络(Convolutional Neural Networks, CNN)达到实体识别的目的，得到比传统识别方法更优秀的效果。Cao等[5]将E-CNN和BiLSTM-CRF进行结合，解决实体边界划分不准确造成复合实体识别困难的问题。Guo等[6]提出将Transformer-XL(Transformer-extra long)与BiLSTM 模型进行融合使用，解决在仅使用Transformer时在方向上信息较少的问题。Derlin等[7]提出了一款基于Transform模型训练出的BERT模型，通过对BERT模型进行微调，能够适应很多不同类型的命名实体任务。Yan等[8]对transform进行进一步调整，使用于命名实体识别。Lasri等[9]对BERT在句法运用上进一步分析。Ma等[10]在Lattice-LSTM上进行修改，将词典特征的上下文直接与BERT训练后的结果进行融合，实现词典信息与预训练模型相结合。Liu[11]提出通过将词典信息与BERT中的Transform层结合，使BERT能学习到更多特征。Ren等[12]在对渔业标准划分中使用了融合注意力机制和BERT-BiLSTM-CRF,召回率、准确率等均超过使用其中单一几个网络。Liu等[13]将轻量级BERT(A Lite BERT,ALBERT)与两个BiLSTM结合，实现了序列标注的高精度化，在实验中达到了91.56%的准确率。为同时获得全局语义信息和方向信息，Liao等[14]提出使用注意力机制动态融合Transformer编码器和BiLSTM的模型。

3、数据集构建

中医案例与其他领域的文本不同，它是一种具有客观性、程式性的特殊文本。它含有各种专有名词，如治方、病名、治法等多种常见实体属性以及证候等文言文中医实体。

中医的医疗案例有多种形式，优秀的医疗案例应当将理、法、方、药结合起来，展现出辩证施治的完整过程。医案的记录应当包括患者的病史、症状、脉象、舌象等，以便深入探究疾病的发病机制，并据此制定治疗方案和药物。本文旨在为中医命名实体识别研究提供一个基础数据资源，促进中医命名实体识别领域的发展。

3.1 中医命名实体类别选择

中医案例基本由患者信息、患者病史、患者医案、中医诊断、西医诊断、治法、方药、处方这8个部分组成。

根据以上信息构建一条完整中医医案的需求，本文选取消化科的中医案例作为研究主体，并依据医案写作特点和数据分布定义了病名、性别、年龄、诱因、症状、舌象、脉象、证候、治法以及治方共10个重要的实体类别。

3.2 中医命名实体类别选择

为了收集中医案例文本数据，本文使用网络爬虫工具批量爬取公开的中医平台病例数据。为了提高数据集的质量和准确性，本研究对网络爬虫抓取的数据进行了人工筛选及实体标注，最终保留了800份真实有效的中医确诊病例。这些病例中实体总数为 53 360 个。各实体类型的数量及分布情况如表1所列。“治方”类实体占38%,“症状”类实体占26%,“治法”类实体占10%,“证候”类实体占9%,这4类实体占实体总数的83%;其余实体占总数的17%。

表1 命名实体数量

4、模型框架

模型通过融合字、词级别的语义特征，增强模型对于中医案例中实体潜在特征的提取能力，提高模型对于命名实体的识别能力，达到提升模型性能的目的。如图1所示，该模型由3个部分组成：输入表示层LEBERT、特征提取层BiLSTM 以及标签解码层CRF。首先将字符序列传入BERT预处理模型中，BERT 会依据字符的位置向量、字向量和文本向量加和得到最终的输入向量。编码后获取上下文语义信息，将向量输入BILSTM网络模型。经过 BILSTM的双向编码后，最终输出给CRF选择最合理的标签序列。

图1 模型结构图

4.1 输入表示层LEBERT

为了解决中医病例中各个标签中命名实体密集且边界模糊的特点，在BERT模型的基础上采用LEBERT模型，获取每个字相关的词，利用词汇信息对命名实体进行边界划分，达到划分命名实体边界的目的。

与BERT相比，融合词汇增强的预训练模型LEBERT将汉语句子转换为字词对序列，将字符和词汇特征作为输入，输出字词对序列。Transform层之间连接一个词典适配器，使得词汇信息能够有效地融合到BERT中。本文所使用的LEBERT的实现原理如图2所示，其中Cn表示每个字符，Wn表示每个Cn匹配的词语，hn表示经过Transform层后的数据。

图2 LEBERT模型

正文内容使用一个词典D和一组含有n个字符组成的汉语句子，以词典作为基础，将字符序列S中所有可能包含的词语找出来。如图3所示，以“参苓白术散”为例，共获取3个隐藏词，“参苓”“参苓白术散”“白术”(〈pad〉为空填充)。每个字获得对应的隐藏词，隐藏词即获得配对的字符序列，计算式如式(1)所示。

图3 输入“参苓白术散”

通过对BERT适配器进行研究，实现将外部词典信息特征与句子信息的融合。将字符序列嵌入信息x

其中，ew是一个预先训练的单词嵌入查找表，wij是wi中的第j个单词。由于两者的向量长度存在差异，通过式(3)使之对齐。

其中，W1是dc-dw的矩阵，W2是dc-dc的矩阵，b1和b2是偏置值，dw和dc分别为单词嵌入的维数和BERT的隐藏大小。这里计算每个词的最大可能性，如上图所示，若“参苓”两字后没有“白术散”,则会分配 “参苓”词组作为“参”和“苓”的最匹配词组。v

分配的给第i个字符，表示为Vi=(v

大小为m-dc的矩阵，其中m为分配的词总数。每个单词间相关性计算式如式(4)所示：

其中，Wattn是双线性注意力的权重矩阵。式(5)为获得所有单词的加权和：

4.2 特征提取层BiLSTM

中医命名实体中常有病名与症状混合出现的情况，判断实体所属标签取决于前后文中的描述信息。但引入词汇信息后各个命名实体之间趋向于板块化，前后文信息减少，导致实体识别的准确率有所降低。故采用BiLSTM网络提取前后文中的特征信息，提高命名实体识别准确率。

如图4所示，LSTM的神经元中引入了门函数，通过3个门结构(遗忘门重置数据、输入门读取数据、输出门输出数据)实现对前后文信息的取舍。

图4 LSTM的神经元

每个神经元都有3个输入与3个输出，Xt是该时刻新加入的信息，at-1与ct-1是上文信息的表示。Xt与at-1合并后克隆为4份，3份分别与遗忘门、输入门和输出门的权重Wf,Wi,Wo 进行计算，通过函数的激活获得遗忘权重、输入权重和输出权重；最后一份放入RNN中计算。但由于一个LSTM只能处理单向，为了更加准确地分析语句，将两个输入方向相反的LSTM模型组合为BiLSTM进行使用，如图5所示。

图5 将LSTM组成BiLSTM

4.3 标签解码层CRF

CRF是一种基于统计的序列标注算法。CRF将序列标注看作是一个kn分类问题，把上下文的信息以及相邻标签的序列关系纳入考虑，获取全局信息进而获得全局最优的标记序列。

CRF计算条件概率、得分函数、标签概率如下：

其中，yi代表第i个字符的标签，xi代表第i个字符；CRF的转移矩阵为A,Aij代表标签yi到yj的转移概率；y0和yn分别代表句子的开始和结束；YX为所有标签概率。

5、实验内容

实验所使用的数据集为第3章构建的中医案例命名实体数据集，共包含800个消化科的确诊病例数据。采用5折交叉验证对数据集进行划分，将800个数据分为5份，其中每份160个数据。将3份数据作为训练集，一份数据作为测试集，最后一份作为验证集，共测试5次取平均值。将原始训练集和测试集合并，与验证集混合，将数据集划分为5堆，从而减少数据集划分的随机性对模型性能的影响。

5.1 实验环境

实验环境为：Intel(R) Core(TM) i9-10900K CPU @ 3.70 GHz处理器，内存RAM为32 GB,显卡GPU选用NVIDIA RTX3090。本文编程语言版本为Python3.8.1,深度学习框架为Pytorch。

5.2 实验准备

1)模型构建来源：

我们使用的BERT模型是基于Devlin等[8]构建的，BERT中共有12层Transform, 并使用huggingface4中的bert-base-chinese中相关模块进行初始化，使用200dimension预训练词嵌入，利用该词嵌入中的定向跳转图模型进行训练。在BERT模型的第一个Transform和第二个Transform之间插入词典适配器，将预训练得到的词嵌入信息连接词典适配器，在训练期间微调以实现BERT与词典适配器的融合。

2)超参数：

本文选择的是Adam优化器，在BERT中的learning-rate设置为1×10-5,在LEBERT中由于有词典适配器传入数据，因此将learning-rate设置为1×10-4。对于所有模型，设置的最大epoch为20,最大序列长度为256。

3)基准评估线：

为了证明LEBERT-BILSTM-CRF(LBC)的优越性，引入其他模型进行比较。

4)用于对比的模型：

(1)BERT-CRF(BC):

BERT系列最常见的训练模型。基于中文序列标记任务直接对预训练模型BERT进行微调，随后加入CRF层对结果进行筛选分类。

(2)BERT-BILSTM-CRF(BBC):

基于上述模型在BERT训练结果的基础上将CRF改为BILSTM-CRF进行对比。

(3)BERT-softmax(BS):

使用较常用的分类器softmax, 用于与BC和BBC号模型进行实验对照。

(4)BERT-BiLSTM-softmax(BBS):

使用BiLSTM与分类器softmax组合，用于与前述模型进行对比。

(5)ALBERT-CRF:

ALBERT常被看作是轻量级的BERT[15],对小型数据集可能有较好性能，同时迭代速度比BERT更快。

(6)ALBERT-BILSTM-CRF:

ALBERT-CRF号模型的扩展。

(7)LEBERT-CRF(LC):

与提出的模型作对比，验证加入BILSTM-CRF后的效果。

(8)LEBERT-softmax(LS):

同LC号模型。

(9)LEBERT-BiLSTM-softmax(LBS):

将BiLSTM与分类器softmax组合，观察效果。

5)评价标准：

本文使用3项重要的指标衡量模型的表现，分别是精确率P、召回率R和F1 值。

其中，TP表示正确识别的实体数量；FP表示错误识别的实体数量；FN表示未识别出的实体数量。精确率P表示所有预测为正样本的集合中预测正确的比例；召回率R表示所有正样本中预测正确的比例；F1值综合精确率和召回率，是评估模型性能的综合指标。

5.3 对比实验

为了验证本文中LEBERT-BiLSTM-CRF模型的性能，将提出的模型与多个相似的同类型模型进行对比实验。对比实验中包含BERT-Softmax, BERT-CRF,BERT-BILSTM-CRF,BERT-BILSTM-Softmax, ALBERT-CRF,ALBERT-BiLSTM-CRF这些常见的命名实体识别模型。

如表2所列，本章所提的LEBERT-BiLSTM-CRF以88.69%的准确率、87.4%召回率、88.1%的F1位列第一，其中准确率超过第二的BERT-softmax 1.73%,F1超过第二的BERT-softmax 1.1%。

表2 不同预训练模型的准确率、召回率和F1

表2中以ALBERT为基础的两个模型准确率明显低于其余几个模型，推测原因为中医的词汇大多较为偏僻晦涩，如“夜寐难安”这种文言文形式的症状标签；另一方面，这两个模型在十分依赖前后文信息的“诱因”标签上准确率非常低。ALBERT作为小型的BERT,在只有少量训练数据的情况下并未完全收集到相关的词汇信息特征，导致准确率较其余模型偏低。

对比BERT-softmax, BERT-BiLSTM-CRF,BERT-CRF,BERT-BiLSTM-softmax这4个模型在10个标签上的准确率。如图6所示，softmax的准确率均略高于CRF和BILSTM-CRF。本次用于训练的数据较少，在仅使用BERT模型的情况下，模型吸收的前后信息较为单一和固定，即使增加了BiLSTM层纳入前后文的信息也难以使得后续CRF分类器做出对数据更合理的分类。相反，较少考虑前后文信息的softmax能在这种情况下做出更好的判断。例如在性别上，softmax和BiLSTM-softmax正确率达到百分百，而BILSMT-CRF和CRF达不到百分百。

图6 BERT系列模型在10个命名实体的准确率

5.4 消融实验

为证明融合后的模型具有更好的性能，将LEBERT-BiLSTM-CRF拆分组合为LEBERT-CRF,LEBERT-softmax, LEBERT-BiLSTM-softmax, 将4个模型的结果进行对比。如表3所列，LEBERT-BiLSTM-CRF获得了最高的准确率和F1。

表3 4个模型准确率、召回率以及F1

如图7所示，LEBERT-BiLSTM-CRF模型在10个命名实体中都有优秀的表现。纳入了词汇增强能力后的BERT在面对上一个模型出现的问题时，例如“性别”标签，使用CRF能获得更高的准确率。在性别、年龄、症状、病名、证候，以及综合准确率上，相比另外两个模型，LEBERT-BiLSTM -CRF有更高的准确率。

图7 4个模型在10个命名实体识别上的准确率比较

模型总体对比结果如表4所列。

(1)在年龄和性别的标注序列中，参与统计的模型都有较好的效果。对于这些单一且易分辨的命名实体，在缺少BiLSTM提取的前后文信息或是不使用词典适配器融入词汇信息时获取的信息较为单一，CRF的判断能力会略微弱于softmax分类器，CRF在这种情况下表现较差。

(2)在中医案例最重要的证候序列标记中，LEBERT-BiLSTM-CRF取得了最高的准确率，为87.1%,在症状病名上同样取得了最高的准确率，在其余的几个命名实体中也有着较高准确率。与其他模型相比，LEBERT-BiLSTM-CRF的优势在于不仅保证了前后文信息供给，而且加入了词汇信息，依靠两个信息获取途径进一步优化结果，给模型带来了正向反馈效果。

基于上述对比实验可知，加入BiLSTM层后LEBERT-BiLSTM-CRF获得了高于BERT-CRF和LEBERT-CRF的准确率。LEBERT-BiLSTM-CRF模型在性别和年龄的识别上达到了百分百的准确率，在症状、病名、证候方面的准确率分别为83.33%,94.23%,87.10%,综合准确率为88.69%,与其他模型相比，LEBERT-BiLSTM-CRF这6项拥有最高的准确率。

表4 不同模型在10个命名实体识别上准确率对比结果

5.5 实验时间对比

如表5所列，LEBERT-BiLSTM-CRF与其他模型相比所耗时间虽略有增加，但所耗时间在合理范围内(比平均时间长8%)。

表5 不同模型的训练时间

3)部分验证集的识别结果

如表6、表7所列，选取一部分验证集中的数据，利用LEBERT-BiLSTM-CRF模型对其进行命名实体识别。

表6 部分验证集识别数据

6、结束语

针对中医案例领域的命名实体识别任务中命名实体密集、杂乱无章、词义相近但又分属不同的问题，提出了一种融合词汇增强与预模型的中医命名实体识别模型，该模型在注意力机制中融入词汇信息，再融入BiLSTM进一步获取前后文信息后，能得到更准确的分类结果。CRF经测试数据验证，取得了88.69%的识别准确率、85.8%的识别召回率及87.1%的F1值。该模型在我们创建的小型医疗病例数据集上获得了较好的结果，年龄、性别、症状、病名、证候的识别率以及综合准确率均略高于使用LEBERT搭配其他分类器和使用BERT搭配其他分类器的准确率，说明了该模型在中医案例命名实体识别方面具有一定的实用性。

但与上万条数据量相比，部分实体类别的训练数量不足、数据覆盖面小，从而对整体识别水平有一定的影响，如“诱因”这一标签，数据量较少，部分病例中甚至没有，导致所有模型对于该标签的预测准确率都偏低，后续研究中，将获取更多的医案数据，扩大可识别的实体范围，从而提高准确率和可用性。

文章来源:李旻哲,殷继彬.融合BERT模型与词汇增强的中医命名实体识别模型[J].计算机科学,2024,51(S1):134-139.