首页 > 论文范文 > 工程工业论文 > 军事技术论文 > 军用器材论文 > 军事装备故障诊断方面文本相似度计算的应用分析

军事装备故障诊断方面文本相似度计算的应用分析

2020-08-22 629 上传者：管理员

摘要：随着当前军事装备技术水平的不断提高，对于装备维修保障工作尤其是故障诊断技术水平要求也越来越高。传统故障诊断技术基于装备结构原理、专业性强，但是不能满足未来“三化”装备建设要求。结合当前军事装备信息化建设，建立健全军事装备故障数据库已经势在必行，如何有效利用装备故障数据库为装备故障诊断提供方法依据也成为装备保障工作研究的一个重点。本文从方法论的角度出发，重点分析了当前装备故障诊断研究现状和装备故障文本信息特点，借鉴自然语言处理领域在信息检索方面的成熟做法，运用词向量相似度计算，为故障现象匹配提供计算方法，并对发展趋势进行了展望。

关键词：
军事装备
故障诊断
文本相似度
武器
词向量
加入收藏

随着现代工业生产及科学技术水平的不断提高，按照武器装备发展“通用化，系列化，组合化”的建设要求，武器装备的大型化、高速化、精密化、电子化、自动化发展特点已愈加明显，然而，由于武器装备结构复杂，基层维修力量技术水平参差不齐，加上外部战场环境瞬息万变，一旦装备发生故障而无法进行有效排除，将会对训练乃至作战任务产生难以想象的影响。

当前，我军武器装备故障诊断主要运用的是传统的诊断方法，例如，用配套的故障诊断设备进行诊断。这种诊断设备虽然专业性强，可以涵盖对应装备的所有常见机械、电气、液压故障，但是，在将来“通用化”的建设要求下，专用故障诊断设备将必定会被通用性更强的故障诊断设备慢慢替代，而且当前故障诊断技术都是依赖传统的装备结构原理，针对常见典型故障容易诊断，但是，一旦在战场上出现战场复合性损伤，传统的故障诊断技术效果就不一定适用。

为了适应未来信息化作战及保障特点，结合我军武器装备维修保障研究现状，在当前的故障检测与诊断方面，需要建立一种够将人工智能、大数据等先进学科技术结合起来的装备维修保障模式：即通过建立武器装备故障数据库，通过故障现象在故障数据库中进行匹配，查找在故障数据库中存储的之前出现过的相同或者类似故障，通过之前解决故障的经验做法，为故障的判断排除提供思路和依据。这种方法不仅省去了用传统方法进行故障判排所花的时间，而且为我军的信息化数据建设提供了有力的资源支撑。

1、研究现状及特点

1.1 装备故障诊断的研究现状及特点

故障诊断技术自20世纪60年代从美国起源以来，已经发展了60年之久。在此过程中，故障诊断已经从一门单纯的技术转变成了以故障检测、故障定位以及故障识别等为主要技术活动的一项综合性维修保障活动。

根据诊断时获取诊断信息原理手段不同，故障诊断方法可以分为三种。

(1）基于知识的故障诊断方法，该方法需要根据经验确定合理的诊断知识，从而检测、隔离与定位故障。

(2）基于信号处理的方法，用信息处理方法分析现场测试信号，提取诸如幅值、频率、谐波、震动等诊断特征信息，从而检测出故障。

(3）基于解析模型的方法，建立诊断对象的故障诊断数学模型，根据系统输出的实际值与期望值之间的差别来检测诊断故障。

从当前的科技发展趋势和研究现状看来，随着传感器、自动测试、信号处理、计算机和人工智能等现代科学技术的发展，装备故障诊断技术带着以下三个特点进入一个全新的发展周期：一是以装备测试性设计为基础的状态检测和机内测试技术研究将更加深入，嵌入式计算机技术的应用，使机内测试技术向智能化、集成化、网络化方向发展；二是基于人工智能的故障诊断法方法研究将日趋成熟，专家系统、神经网络、模糊诊断和模型推理等方法，将得到广泛的应用；三是综合诊断技术、远程诊断技术、大型复杂装备的故障预测和容错控制技术的研究将得到不断加强。

1.2 装备故障文本信息特点

此次装备故障文本信息主要来源于课题组之前参与的多次演训活动中的装备故障数据统计信息，在对故障信息进行汇总后，已经通过特殊编码的方式，隐去了装备的具体型号，用“字母+编号”的形式代替，并且对一些军事装备特有的字词进行了编码，具体故障现象通过简短制式的文字进行叙述，因此，每条故障现象都是一条简短的文本信息，现象之后为故障原因以及处理方法。

图1装备故障文本数据截图

通过以上截图可以发现，装备故障现象文本都是短文本，短文本在自然语言处理领域是一个比较特殊的分支，因为短文本的信息长度较短，所包含的有效信息也就相对较少，这就导致了样本的特征稀疏，形成特征向量后维度就会很高，不易从中抽取到准确而关键的样本特征。

此外，通过观察以上截图，会发现一些如“两晶流”“偏心扫描”这类在专业领域才会出现的词汇，如果不将这些词汇作为专有名词加入词表中，在进行短文本的分词处理过程中，就会将“两晶流”分词为“两”“晶”“流”，“偏心扫描”分词为“偏心”“扫描”，这样就会丢失短文本原有的特征。针对以上现象，就需要在对故障文本信息进行处理的过程中进行特定操作，以达到正确获取故障短文本语义信息的目的。

2、文本信息处理及相似度计算

2.1 故障文本信息预处理

故障文本信息预处理就是将故障文本通过一系列的操作，将其转化为计算机能够读懂的信息，随着当前自然语言处理领域研究的深入，对于文本信息的预处理方法愈发变得多样化，但整体流程基本一致。即文本获取、分词、文本清洗、向量化等步骤。

此次实验的故障文本分词用的是jieba分词，鉴于之前提到专业领域的专有词汇过多可能会影响分词的准确性，所以在分词之前，将军事装备领域特有词汇进行了汇总，形成了一份专业领域特有的自定义词典，在分词之前将自定义词典载入jieba词库内，这样能有效提升分词的准确性。

获取分词后，需要去掉分词中的停用词。停用词指一些不包含主要具体语义信息的功能词、副词等，将这些停用词去掉后不仅不会对文本信息产生大的影响，而且可以在文本匹配或者信息检索中能有效节省存储空间并提高搜索和匹配效率。该论文所采用的停用词表为“百度停用词表”。

图2jieba自定义词典部分截图

词向量化就是将字词映射到向量空间里（wordembedding），用向量来表示字词，这样便于计算机对字词的理解和计算，为相似度计算提供条件。当前生成词向量的方法主要分两大类，一类是基于统计学的方法，如共现矩阵、SVD（奇异值分解）等；另一类是是基于不同结构的神经网络的语言模型方法，比较经典有word2vec、glove、ELMo、BERT等。

有了分词对应的词向量，下一步需要做的就是将词向量转化为句向量，这样才能通过整句进行故障现象的相似度匹配。对于当前NLP领域的句向量生成方式，主要包括了两类，一类是利用整个数据集（非监督学习）或者训练集（监督学习）的文档数据进行训练，建立以生成句向量作为最终输出的模型，这种方法需要依赖大量的数据资源，其中比较成熟的方法有：Doc2Vec、CNN文本分类器等方法；第二类方法则是利用现成的词向量用不同的数学或基于文本统计信息的算法来计算句向量，具体方法有：累加法、平均法、TF-IDF加权平均法和ISF嵌入法。

由于装备故障数据规模较小，通过数据集训练生成模型的效果不理想，所以在此运用腾讯AILab开源的包含了800多万中文词汇的200维词向量数据，该数据采用了基于Skip-Gram(SG)的DSG算法，额外考虑了词的相对位置，提高了词向量语义表示的准确性。鉴于词向量都是预训练好的，所以在此我们使用第二类方法进行计算。根据故障数据特点，大多数装备故障文本字数都在十字以内，文本信息较短，句法结构简单，并且各个故障现象之间没有任何关系，都是独立的数据信息，所以基于在整个文档中的词频和语料库统计数据的TF-IDF和ISF算法并不具有优势，因此，在此选择被广泛运用的平均法来生成句向量。

平均法计算句向量就是将词向量加起来，然后，除以词向量的个数。计算公式为：

本文实验环境为Windows10操作系统，使用PycharmCommunityEdition2019.2.5作为开发工具，数据库采用MySql5.7版本，使用Python3.7开发语言实现相似度计算。下图为通过平均法计算句向量的部分结果截图。

图3句向量计算结果部分截图

2.2 文本信息相似度计算

在获得代表装备故障现象的句向量后，通过与装备故障库内的故障现象数据进行相似度计算，可以找到和当前装备故障类似的所有故障案例，通过案例的有效信息为故障的判排提供思路和依据。

当前对于文本相似度计算的方法主要包括基于字符串（String-based）的方法、基于语料库（Corpusbased）的方法、基于世界知识（Knowledge-based）的方法和其他方法，具体请见图4，这些方法涵盖了NLP领域对文本相似度计算的几乎所有方法，且各自的优缺点和适用场合不同，但这些方法都是针对从文本语料库为起始，通过字符串、模型或者统计信息等不同方式来计算文本之间的相似度。

基于字符串的相似度计算方法中，当前运用较广泛的有编辑距离、最长公共子序列（LCS）、余弦相似度、欧氏距离、杰卡德系数（Jaccard）等。因为欧氏距离和编辑距离的结果不是以百分比的形式体现的，所以在此无法进行结果的直观比较，所以主要是针对余弦相似度、杰卡德系数、词频算法和词频-逆文档频率进行相似度计算，故障文本分别为“发动机不能启动”和“发动机启动不了”，两个文本的相似度结果如下。

表1相似度计算结果

通过上表实验结果可知，在基于预训练的腾讯词向量基础上，余弦相似度算法在计算句子相似度的准确率上是最高的，即求解两个向量夹角的余弦值，也就是向量点乘以除以二者的模长。公式如下：

图5余弦相似度计算结果

图4文本相似度计算方法

3、结语

本文在针对军事装备故障现象的相似度计算方面，考虑到故障文本信息简短、特征稀疏、语义丰富的特点，采取了基于腾讯预训练的词向量来计算故障文本之间的相似度，为故障现象匹配提供了方法和思路。由于杰卡德系数（Jaccard）、词频算法（TF）、词频-逆文档频率（TF-IDF）算法只需通过字符串信息生成词频矩阵，免去了预训练词向量这一过程，进而体现了腾讯运用DSG算法预训练的词向量在基于语序表征语义信息方面的优势，而且词频算法（TF）和词频-逆文档频率（TF-IDF）算法涵盖的词频统计信息对于每条都相互独立的装备故障数据而言，并不能很好地反映关键词信息。通过最后的实验结果可以证明，余弦相似度在计算两个向量的距离上的效果是最好的。

当前专家系统在故障数据库的运用方面还停留在比较初级的阶段，下一步工作主要是对装备故障数据库的建设，通过充实故障数据库，在大量数据信息支撑下，可以利用训练模型和构建知识图谱来优化装备故障诊断方法的全面性和准确性，为装备故障诊断和装备数据资源建设提供有力支撑。

参考文献：

[1]王世敬,温筠.现代机械制造技术及其发展趋势[J].石油机械,2002,030(011):21-24.

[2]郑东良.装备保障概论[M].北京:北京航空航天大学出版社,2017.

[3]胡剑波,陈勇.军事装备维修保障技术概论[M].北京:解放军出版社,2010.

[5]陈二静,姜恩波.文本相似度计算方法综述[J].数据分析与知识发现,2017,1(06):1-11.

蒋怡,霍晓强,王清.文本相似度计算在军事装备故障诊断方面的应用[J].中国设备工程,2020(15):169-171.