摘要:为了提升医疗信息系统对健康档案数据的分析效率,文中采用图像采集、降噪、配准与差分等技术提取医疗图像信息,进而有效提升信息系统的数据采集效率。同时还对传统的K-means算法加以改进,并提出了一种基于类间、类内距离的聚类初始化评价指标体系(BWP),将其应用于采集到的档案数据中,以实现快速的聚类分析。将所提算法在CUDA计算平台上进行了实现,测试结果表明,该方法的聚类精度和运行效率较现有算法均有显著提升。此外,改进后K-means算法的正确聚类样本数量占比提升了4.88%,高于现有的主流指标体系,且当聚类数k的取值为16或32时,运行时间大幅降低。
医院的健康管理信息平台是信息化建设的重要组成部分,也是对传统健康管理业务流程的再造[1,2,3,4]。根据国外经验,医院信息化投入通常占总收入的5%,而我国的平均水平仅约为2%。创建一套完善、周密及个性化的健康数据分析系统,其目的在于辅助建立有序、健康的生活方式,进而降低疾病风险;而一旦出现临床症状,则可通过智能化就医服务,尽快接受诊断治疗[5,6,7,8,9]。
基于上述应用背景,文中面向医院的健康信息管理平台设计了医疗档案的数据分析算法。该方法基于机器视觉技术(Machine Vision,MV)实现对门诊记录和检验报告等信息的提取,再使用K-means算法对提取的信息进行归类分析,从而提升健康信息管理平台的数据管理效率,并规范了相关的业务流程。
1、理论分析
1.1 聚类算法设计
该算法的应用场景为医疗信息系统相关档案的初步自动归类分析。所选择的聚类算法是适用于医疗档案这类大数据应用场景的K-means算法[10,11,12,13]。在使用该算法前,首先,要确定医疗档案的类别数量,即k值;然后,在迭代过程中,以每个档案样本到聚类中心的距离之和最小作为最佳聚类方案。其基本步骤描述如下:
1)在n个样本中,选取k个样本{z1,z2,…,zk}作为所有样本的初始聚类中心。
2)遍历n个样本,对于第i个样本xi,得到与其距离最近的聚类中心zv,同时将该样本分配到zv对应的类别uv中。
3)根据平均法,重新分配类别中心。
4)根据式(1)计算所有样本到聚类中心的距离D:
5)判断D的收敛情况,若D不收敛,则重复步骤2);否则,返回分类结果,如式(2):
根据医疗档案信息管理系统的需求,聚类方法应准确反映不同档案样本间的内在结构,且类内的样本也需尽可能相似。由于该场景下的数据结构复杂,传统K-means算法的分类效果受初始聚类中心的影响较大。因此,文中建立了新的指标评价体系。
记聚类空间为K={X,R},其中X是数量为n、类别为c的样本集合,R为实数集合。设样本的最小类间距为b,类内距离为w,聚类距离为baw,聚类离差距离为bsw,则第j类和第i个样本下各指标的计算方法如下:
综合式(3)-(6)的相关指标,文中在划分聚类时使用的最终指标BWP的定义如下:
1.2 图像采集与处理
为了提升数据的采集效率,该医疗档案信息系统还引入了机器视觉的图像处理相关方法[14,15,16]。该方法可以自动识别患者的门诊记录、诊断报告等信息,进而实现数据的快速录入。系统视觉处理模块如图1所示。
图1 系统视觉处理模块
视觉处理模块主要包括三个部分:图像采集模块、图像处理模块以及数据管理与信号控制模块。其中,图像采集模块主要对医疗信息系统中的相机、光源等设备的曝光时间、触发频率、环境亮度和照射角度等参数进行调整,以保证医疗档案采集的清晰度。图像处理模块的主要流程如图2所示。
图2 图像处理模块的工作流程
在进行图像降噪[17,18,19]时,采用了邻域平均法。记f(i,j)为相机采集的含有噪声的图像,g(i,j)为降噪处理后的图像,则有:
图像配准是指将采集的图像通过平移、旋转等操作,完成几何矫正,文中采用基于邻域搜索的模板匹配法来进行配准。首先在标准模板中选取两个小区域模板T0、T1,并将二者的中心分别设为(x0,y0)和(x1,y1);记P(X,Y)为(x0,y0)与(x1,y1)连线的中心线,M(x,y)为降噪后图像的中心点坐标,则可以得到坐标间的对应关系为:
式(9)中,(x′,y′)为降噪后图像M绕原点O旋转角度θ后的坐标,并记该点为M′,其坐标计算公式为:
其中,γ为OM连线与平面直角坐标系中x轴的夹角。其计算公式如下:
最终,可以得到配准的平移量为:
图像差分是将配准后的图像进行差分,进而获得差值图。其可描述两幅图像之间的差异,从而为提取有效的患者档案信息提供基础。假设系统预置的模板图像灰度矩阵为T,配准后的图像记为S,插值图像记为E,则有:
基于插值图像,即可最终完成相关的医疗档案信息提取。
2、方法实现
2.1 实验平台设计
在使用医疗信息系统进行档案管理时,由于患者人数多、提取的信息结构复杂且获取的数据量也较大,此时若采用传统的K-means算法进行数据处理,不仅迭代过程难以收敛,算法的相关指标也无法令人满意,因此文中仍基于机器视觉的相关理论,搭建算法仿真的GPU并行计算平台。
GPU是计算机上用于图像处理的微处理器,根据计算机视觉体系下的计算特点,该处理器适用于文中所述的计算密集型场景。CUDA(Compute Unified Device Architecture)是NVIDIA公司开发的面向GPU的并行计算平台,基于该平台实现医疗信息管理系统的相关机器视觉计算任务与K-means的并行化处理。
为了满足医疗机构现有数据分析系统的接口要求,需要在CUDA中按照Host端、Device端进行数据结构体设计。Host端主要包含Data结构体。该结构体的具体描述如表1所示。
表1 Data结构体属性设计
相较于Host端,Device端的数据结构相对简单,所有的结构体均为一维数组。每个结构体的功能描述如表2所示。
表2 Device端结构体属性设计
在进行K-means算法设计时,由于不同时间、不同地点医疗信息系统采集的数据规模是不同的。因此文中对于不同的数据集规模,分别设计了不同串行、并行的K-means算法。具体的描述如表3所示。
表3 系统内设计的聚类算法和处理对象
根据K-means算法的基础理论和改进的K-means算法描述,在CUDA中设置该算法的相关参数,如表4所示。
表4 改进K-means算法的参数
文中使用的算法硬件仿真平台与CUDA平台的相关参数,如表5-6所示。
表5 算法仿真硬件平台
表6 CUDA的相关参数
2.2 实验测试与评估
基于上文所述的相关图像处理方法共提取了七个数据集,不同数据集的标签维度数、提取的时间如表7所示。
表7 数据提取结果
从表7中可以看出,图像处理算法在GPU上的运行速度是显著优于CPU的。而在CPU中,数据的提取效率会随着数据维度的提升而降低,在并行的GPU计算模式下,提取时间的增加速度则小于CPU中的速度。
在完成数据提取后,选取编号为6的数据集(64/8 MB)作为测试样本,并对改进后的K-means算法在CUDA中的运行效率进行评估。评估结果如表8所示。
由表8可知,不同的k取值会影响K-means算法的运行效率。在CPU中进行聚类实验时,算法的运行时间会随着k取值的变大而显著增加;而在GPU中进行计算时,运行时间随k取值的变化则并不明显。对比两个算法,当k取值为16、32时,GPU的运行时间分别下降了76.79%和82.49%。由此说明,K-means算法越复杂,GPU下的计算优势便愈发明显。
表8 不同k值下的运行时间
最后,在编号为7的数据集上对上文所述的聚类算法BWP评价指标体系进行了评估。经前期标注,已探明该数据集的最佳分类数k为16。在测试时,使用现在常用的CH、DB、KL等聚类评价指标体系作为对比。测试对比结果如表9所示。
表9 不同指标体系下的聚类效果
从表9可以看出,CH、DB算法无法在具有多个类别时正确识别样本的类别数量。而KL与所提BWP指标均能帮助K-means算法正确识别出样本的类别数,但后者正确聚类的样本占比提升了4.88%。
3、结束语
文中面向医疗信息管理系统设计了一套基于机器视觉的档案信息提取算法,并引入改进的K-means算法对提取的档案信息进行了聚类分析。在实现相关算法时,文中还使用了基于GPU的CUDA计算平台,提升了算法的计算效率。未来,随着医疗信息化程度的不断提升,所提数据分析方法将有更广泛的应用。
参考文献:
[1]考书健,虞丽娟.基于云和雾计算的亚健康信息管理系统构建方案[J].电子科技,2018,31(7):79-84.
[2]陆鹏,葛嵩韬,吴响,等.基于ZigBee的个人健康信息管理与隐私保护系统设计[J].计算机测量与控制,2021,29(4):170-174.
[3]冯涛,焦滢,方君丽,等.基于联盟区块链的医疗健康数据安全模型[J].计算机科学,2020,47(4):305-311.
[4]白新国,刘姿邑,张光辉,等.基于Android平台的智能健康医疗系统设计与开发[J].电子设计工程,2021,29(4):107-111.
[5]拜亚萌,满君丰,张宏.基于区块链的电子健康记录安全存储模型[J].计算机应用,2020,40(4):961-965.
[6]张青.接触式健康监测系统资源库信息交互设计[J].沈阳工业大学学报,2019,41(3):304-308.
[7]李果.计算机数学模型的远程医疗信息平台网络架构[J].信息技术,2021(8):133-138,144.
[8]毛戈,李晶,姚弘毅.基于智慧医院的电子病历应用和设计[J].湖北大学学报(自然科学版),2021,43(6):706-712.
[9]王震,张海清,彭莉,等.基于奇异值分解的医疗数据信息提取及分类方法[J].成都信息工程大学学报,2020,35(5):537-541.
[10]谢挺,刘瑞华,魏正元.一类连续的K-means等价聚类模型及其优化算法[J].计算机工程与科学,2021,43(11):2077-2083.
[11]王子龙,李进,宋亚飞.基于距离和权重改进的Kmeans算法[J].计算机工程与应用,2020,56(23):87-94.
[12]靳雁霞,齐欣,张晋瑞,等.一种改进的简化均值粒子群K-means聚类算法[J].微电子学与计算机,2020,37(5):69-74.
[13]王艳娥,安健,梁艳,等.基于密度优化初始聚类中心的K-means算法[J].计算机技术与发展,2020,30(12):99-105.
[14]刘建华,欧阳萍,刘戈灵,等.基于图像处理的多视觉特征融合方法及其应用[J].湖南工业大学学报,2020,34(6):16-21.
基金资助:2021年度济宁市重点研发计划(软科学项目)(2021JNZC003);
文章来源:崔雨晴.基于改进K-means与机器视觉的档案数据分析技术[J].电子设计工程,2024,32(02):191-195.
分享:
随着计算机网络技术的发展,人类进入数字化新时代。数字化对医院档案管理产生了新的影响,传统医院档案管理方式逐步向数字档案室转变。引进数字技术,建设数字档案室,提高医院档案管理水平,成为数字时代医院档案管理的新路径。在经济发达的地区,一些大型医疗机构通过建设数字档案室,档案管理水平显著提升。然而,在一些经济欠发达地区,医院档案室的数字化建设进展缓慢。
2024-04-16衰弱(Frailty)是指机体生理储备下降导致机体易损性增加、抗应激能力减退的非特异性状态,与跌倒、失能等临床负性事件的发生密切相关。衰弱是动态发展且潜在可逆,早期识别是开展衰弱管理的基础
2024-02-08医院的健康管理信息平台是信息化建设的重要组成部分,也是对传统健康管理业务流程的再造[1,2,3,4]。根据国外经验,医院信息化投入通常占总收入的5%,而我国的平均水平仅约为2%。创建一套完善、周密及个性化的健康数据分析系统,其目的在于辅助建立有序、健康的生活方式,进而降低疾病风险;而一旦出现临床症状,则可通过智能化就医服务,尽快接受诊断治疗[5,6,7,8,9]。
2024-01-22随着计算机信息技术的快速发展,医院信息化建设日趋成熟,健康档案系统也已逐步升级为智能化的管理平台。然而这类系统的广泛使用会产生大量数据,对采集到的数据进一步展开智能化分析才能为医疗服务、疾病预测以及降低成本等提供有效的支撑。因此如何智能挖掘复杂的医疗健康档案数据,并根据相关记录来预测出对应的健康状况是一个亟待解决的问题[1,2]。
2024-01-22病例档案是医务人员在医疗活动中形成各种诊疗记录的总和,是反映患者发病、诊断、检查的最真实的记录。医疗事业飞速发展,但相应地,医疗纠纷也随之增多,病历档案因其独有的特性,在医疗纠纷诉讼中发挥着关键作用,因此要深入分析新形势下病历档案管理的缺陷和不足,查找问题成因,精准施策开方,才能有效减少纠纷问题的发生,更好地服务人民群众健康。
2023-12-28医疗保障作为我国社会主义保障体系当中重要组成部分之一,是医疗保障部门给予患者一定的医疗费用补偿的社会保障制度之一。这种保障制度对于推动社会发展,构建和谐社会具有深远的影响。医保档案作为我国医疗档案管理工作的重要内容,关系到医疗服务水平的提升、医保管理质量的重要环节。实现医保档案管理工作的规范化,对于加快医疗保险事业的稳定、长久、健康发展具有一定的促进作用,因此要提高其重视程度[1]。
2023-12-28医院综合档案包括在医院的各项工作活动中产生的文字、声像、图片等资料,记录着医院的发展历程,为未来各项事务提供重要凭证与决策参考。受各类信息化技术广泛应用的影响,在线管理系统平台得到普及,对于业务规模大、数据基数多、隐含价值丰富的信息管理带来极大便利,医院综合档案管理也逐渐走向数字化、信息化、智慧化发展态势。
2023-12-28人力资源是一种宝贵的资源,其本质是人的能力[1]。发挥宝贵的人力资源优势,就需要做好人力资源开发。人力资源开发(Human Resource Development,HRD)最早由美国学者Nadler提出,是指一个企业或组织团体在现有人力资源基础上,根据组织结构变化、战略目标制定,做好现有人力资源的调查、分析、规划和调整,达到提高人的才能,增强人的活力,提升组织或团体现有人力资源管理水平,激发团体或组织创造更大价值。
2023-12-28文书档案是指反映党务、行政管理等活动的档案。通常是在党务、行政管理事务活动中产生,由通用文书转化而来,一般包括指示、决定、请示、通知、批复、计划、总结等。精细化管理是一种管理理念,旨在为适应社会分工精细化、服务质量精细化而建立目标、标准、流程、任务细分,做到计划、决策、控制和考核精确。
2023-12-28迈向现代化是世界各国的共同追求[1]。中国式现代化是高质量发展、全面的现代化,是包括档案工作在内的现代化。《“十四五”全国档案事业发展规划》把“走向现代化”作为“十四五”时期推动档案工作“三个走向”之一,到2025年,档案工作“三个走向”要取得实质性进展,到2035年,“管理现代化程度进入世界前列”。
2023-12-28我要评论
期刊名称:档案管理
期刊人气:1006
主管单位:河南省档案局
主办单位:河南省档案局
出版地方:河南
专业分类:档案
国际刊号:1005-9458
国内刊号:41-1216/G2
创刊时间:1983年
发行周期:双月刊
期刊开本:大16开
见刊时间:一年半以上
影响因子:0.453
影响因子:0.316
影响因子:0.438
影响因子:0.134
影响因子:0.000
400-069-1609
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!