摘要:为深入研究历年油气生产企业事故事件致因因素,为事故事件预控提供依据,采用事故致因理论即屏障理论通过分析石油及天然气行业事故事件调查报告数据,建立了适用于石油石化行业的HSE文本语义分析模型,并从1万余条事故事件数据中自动提取13类失效屏障类型、14类屏障失效原因和13项管理因素,通过实例应用与分析,探讨了导致油气行业事故屏障失效的管理因素,提出事故HSE管理建议。结果表明:人员操作屏障和结构完整性屏障是事故事件中失效最多的两类屏障,其中人员操作屏障失效导致了59%的事故事件,结构完整性屏障失效导致了22%的事故事件;员工安全意识缺乏/疏忽/失误和安全知识/技能不足是导致人员操作屏障失效的关键原因,装置/设备设计缺陷和装置/设备运行控制缺陷是导致结构完整性屏障失效的关键原因;风险防控与隐患排查治理是导致人员操作屏障失效和结构完整性屏障失效的共性管理因素。该研究结果可为油气生产企业事故事件的预防提供依据。
油气行业具有易燃易爆炸、有毒有害、高温高压等生产特点[1,2,3],一旦发生事故,不仅会造成重大的经济损失,而且会带来严重的社会影响,因此防范安全事故的发生是石油及天然气企业安全管理的重要目标和方向[4]。然而,近年来油气生产企业同类型安全事故重复发生,其重要原因是企业对历史事故事件发生的原因认识不足。随着信息化技术的发展,企业积累了大量的事故事件报告数据,但文本挖掘技术的不足限制了事故事件资源利用的程度。
目前,我国对事故事件资源的利用水平仍然处于落后阶段,主要表现在以下两个方面[5,6,7,8,9]:一是在某起重特大事故发生后对事故原因进行深刻剖析,以预防同类型事故再次发生;二是采用人工方式批量分析事故数据,统计各类事故发生的规律,为事故预防提供依据。上述两者都是针对油气生产企业事故发生原因和发生规律展开的分析与研究,但均存在一定的局限性:前者主要是针对某一起事故开展事故原因的分析,其数据量小,因而难以发现事故发生的共性原因;后者利用人工方式对事故原因开展分析,虽然其分析结果有一定的价值,但效率低。相比之下,挖掘方法将事故调查报告作为数据源,可从事故调查报告中获取事故发生时的特征信息,有利于解释事故发生的规律。
基于文本挖掘方法的思路,许多学者利用文本挖掘方法对事故原因进行了分析,如薛楠楠等[10]通过对334份建筑施工安全事故报告进行分析,识别出8项建筑工人不安全行为和27项影响因素;李解等[11]首次运用R语言和文本挖掘方法,从151份地铁施工事故报告中提取了6项关键因素和23项一般因素。但这些研究大多只是关注施工安全事故的原因,对油气行业事故影响因素的研究相对较少。为此,本文以油气生产企业事故事件数据为基础,通过建立领域专业词库和停用词库对事故事件数据进行分词,建立了词向量并基于FastText算法形成了与油气生产企业事故事件信息相匹配的HSE文本语义分析模型,并利用其自动提取大量事故调查报告中失效屏障类型、屏障失效原因,进而揭示导致事故屏障失效的管理因素,为寻找油气生产企业安全管理缺陷与事故预控提供依据。
1、数据来源
本研究收集了某油气生产企业2000—2018年事故数据,数据类型为非结构化文本数据,包括事故经过描述、事故原因描述等,并考察数据的完整性和可用性。原始事故数据示例如表1所示。
2、研究方法
基于自然语言处理技术,利用事故数据建立训练样本,构建了HSE文本语义分析模型,并利用该模型从1万余条事故数据中自动提取失效屏障类型、屏障失效原因和导致屏障失效的管理因素,进而进行了统计分析,其流程主要包括数据预处理、建立机器学习样本、建立HSE文本语义分析模型、模型应用、结果可视化分析和建议与措施6个环节,见图1。
2.1 数据预处理
本文数据预处理主要包括数据清洗、数据集成和数据缺失标记三项任务。本文主要分析事故事件发生的原因,由于原始事故文本数据中一些不相关的信息并不会为分析模型的构建提供重要信息,反而会在模型训练期间制造噪音,因此需要通过数据清洗将其从训练集中去除;此外,原始事故文本数据中还存在缺少“事故经过描述”或者“事故原因描述”字段的事故,因此需要通过数据集成以完善事故事件报告信息;最后,针对数据集成之后依然缺失信息的事故事件数据,则标记为数据来源不明,后续不参与建模。
2.2 建立机器学习样本
本文在屏障理论的基础上建立了机器学习样本。屏障是指在事故早期阶段可以阻止危害因素进一步向事故演变的措施,它可以限制危害因素产生的伤害和后果[12,13]。每一个屏障,如果其完好,都应该能够完全阻止事件的进一步发展[14,15]。
2.2.1 数据标注
在屏障理论的基础上,通过注解、打标签的方式建立机器学习训练样本。建立训练样本是本文的关键,这项任务需要具备石油领域专业知识和安全专业素养的人员完成,需逐一识别出事故中失效的屏障类型,并依次分析屏障失效原因和导致屏障失效的管理因素。值得说明的是,失效屏障类型、屏障失效原因和导致屏障失效的管理因素具有对应关系。针对每一份事故调查报告,标记其失效的屏障类型、每类屏障的失效原因和导致屏障失效的管理因素,形成机器学习训练样本。训练样本建立的流程见图2,训练样本示例见表2。
2.2.2 事故事件归因
形成事故事件归因分类列表是建立机器学习样本的基础。基于建立机器学习样本的需要,事故事件归因列表包括三部分,分别为屏障类型列表、屏障失效原因列表和导致屏障失效的管理因素列表。
(1) 屏障类型列表。本文参照国际油气协会(InternationalAssociationofOil&GasProducers,简称IOGP)的做法,将屏障划分为技术屏障和人员屏障。其中,从安全功能角度将技术屏障分为8类[16,17],见表3;基于人员在人机系统中的典型活动将人员屏障分为5类,见表4。
(2) 屏障失效原因列表。本文将屏障失效原因列表分为技术屏障失效原因列表和人员屏障失效原因列表。其中,技术屏障失效的原因分为7类,见表5;人员屏障失效的原因分为7类,见表6。
(3) 导致屏障失效的管理因素列表。基于国际HSE管理体系[18]和油气行业特点,将导致屏障失效的管理因素分为13类,见表7。
2.3 建立HSE文本语义分析模型
HSE文本语义分析模型的构建过程即为训练HSE文本分类器的过程。本文采用监督式的FastText模型训练HSE文本分类器。FastText模型架构如图3所示,其包含输入层、隐含层和输出层。其中,隐含层是模型固有结构,在此不做具体说明;输出层为分类器;输入层是文本向量,其处理方式决定了HSE文本语义分类模型的分类效果。
FastText模型架构图中xi表示文本中第i个词的特征向量,文本向量为词向量的平均值,因此分词效果对于文本向量的正确表达至关重要。本文通过爬虫技术、行业标准和新词发现等功能建立了包含19999个领域的专业词库,并将基于领域专业词库形成的文本向量作为模型输入层。在训练分类模型之前将数据分割为训练集和验证集,其比例分别为70%和30%,验证集用来评估分类器的性能。构建HSE文本语义分析模型的步骤,见图4。
值得说明的是,由于本文训练数量有限,因此在建立机器学习样本时采用的是关键词标注方式,这样机器可以高效、精准地学习事故事件归因知识,从而大大提高模型构建的效率。通过两次模型调优和迭代,本文最终训练得到的分类器模型的准确率为85%、召回率为82%,模型基本可以满足事故事件归因信息的提取需求。
2.4 结果可视化分析
本文利用构建的HSE文本语义分析模型自动提取海量事故事件报告中失效屏障类型、屏障失效原因和导致屏障失效的管理因素,并通过统计其分布规律,将结果以图像的形式直观地展示出来,达到所见即所得的效果。
2.5 建议与措施
基于事故事件归因分析结果,结合企业风险特点及其事故事件相关管理办法,从防范事故事件发生的角度,提出了相应的防控建议与措施。
3、实例应用与分析
本文首先采用某油气生产企业300个事故报告数据作为训练样本,构建了事故事件归因分类器,并利用此分类器从1万余条事故事件数据中自动提取失效屏障类型、屏障失效原因和导致屏障失效的管理因素,最后通过可视化的方式展示失效屏障类型的分布规律,并将其与屏障失效原因和导致屏障失效的管理因素进行关联,寻找HSE管理的缺陷和短板,为持续改进HSE管理提供建议。
3.1 失效屏障类型分析
几乎每起事故事件都是技术屏障和人员屏障失效叠加所导致的,图5和图6分别展示了不同技术屏障类型和人员屏障类型对事故事件影响的比例。
由图5和图6可知:技术屏障类型中结构完整性屏障失效导致的事故事件数量最多,其导致了22%的事故事件;人员屏障类型中人员操作屏障失效导致的事故事件数量最多,其导致了59%的事故事件。
3.2 屏障失效原因分析
本文利用热力图展示了事故中13类失效屏障类型与屏障失效原因之间的关联关系,见图7。其中,横轴为失效屏障类型,纵轴为屏障失效原因;颜色的深浅代表了占比大小,颜色越深表明两者之间的关联关系越密切。
由图7可知:装置/设备设计缺陷和装置/设备运行控制缺陷分别造成了40%和19%的结构完整性屏障失效,它们是结构完整性屏障失效的关键原因;安全意识缺乏/疏忽/失误和安全知识/技能不足分别造成了60%和13%的人员操作屏障失效,它们是人员操作屏障失效的关键原因。
3.3 导致屏障失效的管理因素分析
事故中失效屏障类型与导致屏障失效的管理因素之间的关联关系,见图8。
由图8可知:设备管理因素和风险防控与隐患排查治理因素分别造成了27%和11%的结构完整性屏障失效,它们是结构完整性屏障失效的关键管理因素;风险防控与隐患排查治理因素和教育培训因素分别造成了31%和14%的人员操作屏障失效,它们是人员操作屏障失效的关键因素。
4、结论与建议
本文采用国际石油及天然气行业主流的事故致因理论——屏障理论分析了事故事件调查报告数据,建立了适用于石油石化行业的HSE文本语义分析模型,并从1万余条事故事件数据中自动提取与分析了事故事件中失效屏障类型、屏障失效原因和导致屏障失效的管理因素,得到如下结论与建议:
(1)59%的事故事件与人员操作屏障失效有关,22%的事故事件与结构完整性屏障失效相关;安全意识缺乏/疏忽/失误和安全知识/技能不足是导致人员操作屏障失效的关键原因,装置/设备设计缺陷和装置/设备运行控制缺陷是导致结构完整性屏障失效的关键原因。
(2)员工教育培训不到位和风险管控与隐患排查管理不到位分别是导致人员操作屏障失效和结构完整性屏障失效的共性管理因素,建议从事故预防的角度,采用虚拟现实技术、借助模拟操作机来切实提高员工的安全技能水平,并设计科学的员工培训效果考核指标,减少员工违章、误操作不安全行为,同时提高员工的风险辨识能力,加强风险隐患排查治理工作,切实减少事故的发生。
(3)采用本文构建的HSE文本语义分析模型,只需1min即可实现对1万余条事故事件报告信息的提取,而人工提取每份事故事件报告信息至少需要30min,分析效率提高了约30万倍,为事故事件资源价值的利用奠定了技术基础。
(4)语义分析模型领域专业词库和事故事件样本的全面性、均衡性、数量对模型性能指标的影响较大,未来计划完善领域专业词库、补充事故事件样本数据数量和质量,持续迭代优化模型,以提高HSE文本语义分析模型的准确率和召回率。
参考文献:
[1]李晓萍,沙乔兵.石油化工安全技术与安全控制[J].化工管理,2020(6):66-67.
[2]赵博宇.石油化工安全技术与安全控制策略探究[J].中国石油和化工标准与质量,2019,39(9);243-244.
[3]阎红巧,易文斌,冒亚明,等.基于多工况融合的化工装置异常状态预警研究[J].安全与环境工程,2017,24(4):144-147.
[4]李福文.事故事件管控是精准管理的防线[J].劳动保护,2020(9):37-39.
[5]刘祖德.事故致因理论发展概述[M].武汉:中国地质大学出版社,2020:57-74.
[6]陈卓,李鑫,杜军威,等.面向化工企业事故的根原因关联分析[J].计算机与现代化,2020(10):1-6.
[7]兰泽全,傅本福,田冬梅,等.煤矿特别重大事故灰色预测与分析[J].煤炭技术,2020,39(7):81-83.
[9]廖蝉娟,赵淑琪,刘羹,等.2010—2015年我国危险化学品泄漏事故统计分析与对策[J]安全与环境工程,2017.24(5)151-157.
[10]薛楠楠,张建荣,张伟,等.基于文本挖掘的建筑工人不安全行为及其影响因素研究[J]安全与环境工程,2021.28(2)59-55,85.
[11]李解,王建平,许娜,等.基于文本挖掘的地铁施工安全风险事故致险因素分析[J].隧道建设,2017,37(2):160-166.
[18]胡月亭.安全风险预防与控制[M].北京:团结出版社,2017.
文章来源:阎红巧,樊志强,郝壮远.大数据技术在油气行业事故事件致因分析中的应用[J].安全与环境工程,2021,28(06):31-37.
分享:
随着我国工业化、城市化迅速发展,导致流动人口规模逐渐扩大。大规模的人口流动承载着技术、信息和资本在不同地区内流动,不仅形成新的人口空间分布格局,还影响城市的产业布局、经济发展以及自然环境。人口的分布是我国经济发展的重要因素之一,分布合理与否会直接影响经济的协调发展。
2024-04-17大数据时代为各类治理提供了前所未有的决策方式,数据是当今“世界上最有价值的资源”,“数据决策”成为现代化治理体系和治理能力的基本条件。与传统的小数据时代相比,数据有了大小之分,大数据具有数量大、种类多、流动快、反映真、算法复杂等特性;小数据是大数据的一个部分,体积小、易理解、算法简单,且“主要来源是抽样调查、深访、行政记录和实验设计等传统统计方法”。
2023-12-04一卡通系统是高校信息化建设的基础工程之一[1,2]。高校一卡通以面向师生服务为根本目的,通过融合云计算、物联网、移动计算等技术,提供身份验证、消费服务、考勤签到、生活服务等功能[3,4]。目前,高校一卡通的终端机覆盖了大部分智慧校园场景,为全校师生提供校园服务[5,6]。因此,高效、高质量的终端机运维是智慧校园服务的保障。
2023-10-17随着人类社会迈入信息化时代,信息化服务领域各项技术不断进步和发展,社会的各行各业都开始大力推动信息化建设,在此期间数以亿计的各类信息系统在此时代背景下被开发建设出来,这些信息系统在运行过程中产生了海量的过程数据和结果数据,人类正式迈入大数据时代。
2023-09-15所谓的大数据指的是运用某些软件,在特定的时间范围内进行获取、管理、处理并整理成的数据集合。大数据具有数量大、结构类型复杂、产生速度快等特点,它能帮助企业进行决策,对财务管理工作高效化开展进行辅助。大数据的诞生对企业的财务管理工作来说是一个巨大的挑战,过去传统的财务管理模式此时已经不适用了,但是企业若能借助大数据技术为财务管理服务。
2023-08-30大部分数据和资料以纸质形式保存,数据分散、标准不统一、数字化滞后、管理覆盖不足、使用率低、成果转化难、综合应用服务能力低是目前存在的主要问题。因此,有必要通过GIS技术建设宁夏放射性数据库及管理系统,深入挖掘放射性资料的潜在利用价值,以适应新时期放射性调查工作转型发展需要,研究和设计开发基于GIS的放射性数据管理系统,具有重要的现实意义和应用服务价值。
2023-08-30当前,我国政府数据质量管理处于初期发展阶段。在标准层面,2022年10月12日发布了GB/T41795—2022《质量技术基础信息资源数据规范》国家标准[1],规定了数据质量管理技术集成平台的数据采集、数据清洗、数据质量评价、数据集成等方面技术规范。在执行层面,各地政府数据管理组织也相应制定了相关的业务数据质量标准,但是由于组织架构体系、系统技术体系和标准规范不统一。
2023-08-29变形监测数据一般包含真值和噪声2个部分,对变形监测数据进行去噪处理、提取变形特征、分析变形规律,是变形分析研究的重要内容。小波分析具有良好的时频特性,被广泛应用于变形分析中,特别是小波阈值去噪在非平稳变形监测数据处理中取得了较好的效果。众多学者从影响小波去噪的关键因素出发,如小波分解层数、去噪评价、阈值函数、阈值估计等对传统小波阈值去噪进行研究。
2023-08-07随着社交媒体的发展,水利网络舆情事件的发生次数呈上升趋势,监测分析难度日益加大。为解决水利网络舆情监测问题,开发建设水利舆情大数据监测分析平台十分必要。通过对基础设施、数据资源、舆情智能分析、舆情大数据可视化4个模块的构建,水利舆情大数据监测分析平台初步实现舆情大数据监测分析能力,形成较完善的水利行业舆情大数据工作机制。
2022-04-25大数据技术既是高校内部审计创新的环境约束变量,也是审计信息化进程的驱动性因素。大数据技术与高校内部审计融合发展是实现高校内部审计信息化建设战略目标的重要体现,也是提升高校内部审计质量和效率的必然要求,也是推动高校内部审计全覆盖的现实需要。大数据技术融入高校内部审计需要解决好理念、方法、途径等方面的关键问题。
2022-01-24人气:6531
人气:5931
人气:5561
人气:4432
人气:4230
我要评论
期刊名称:大数据
期刊人气:1684
主管单位:中华人民共和国工业和信息化部
主办单位:人民邮电出版社
出版地方:北京
专业分类:科技
国际刊号:2096-0271
国内刊号:10-1321/G2
邮发代号:2-537
创刊时间:2015年
发行周期:双月刊
期刊开本:16开
见刊时间:7-9个月
影响因子:0.693
影响因子:0.706
影响因子:1.052
影响因子:0.194
影响因子:0.491
400-069-1609
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!