摘要:测绘地理信息数据量大、需要具备相对较强的数据处理能力才能获得精准的信息可视化表征,从而实现对相关地域地理知识的有效掌握。基于测绘地理数据分析结果可以有效掌握地表环境信息,从而开展科学研究与工业应用。本文基于对测绘地理信息遥感大数据资源现状的分析结果,研究了如何利用大数据技术实现关键信息的自动分析与深入挖局,提出了通用性的方法,可以在此基础上进行改进以适应具体工程项目的需求。
加入收藏
测绘地理信息工作一直以来都是国民经济发展的基础,同时也是国防事业发展的基石。通过技术手段掌握地球关键点或相关面的坐标、高程、方向等信息,探究其间的相互关联关系并发现数据变化背后的规律性与科学性,基于这些数据信息开展科学研究与工业生产,尽最大化满足人们的使用需求并探索地球变化的奥秘,这是测绘地理信息的核心任务[1]。一般来说,测绘地理信息数据量大、需要具备相对较强的数据处理能力才能获得精准的信息可视化表征,从而实现对相关地域地理知识的有效掌握。传统上,对于地理测绘信息的分析采用的是变量解析的方法,主要依靠人工计算来完成,不仅工作量大、占用人力资源多,而且计算精度不高。近年来,随着信息技术的发展,尤其是大数据技术在信息技术发展中引领地位的确立,人们提出可以利用大数据技术进行测绘地理信息数据的自动处理与深度挖掘。
1、测绘地理信息遥感大数据资源基本现状
利用卫星对地球表面进行高空扫描、获得详细的遥感数据后传输至地面工作站进行分析与处理,是当前地理信息测绘技术的主要手段。遥感大数据是测绘地理信息数据中的主要存在方式。这类数据在获取的时候,由于地球表面环境的复杂性,必然存在无法进行归类与统一、相互之间缺乏联动、无法共享等问题[2]。具体来说,测绘地理信息遥感大数据由于获取方式的局限性,存在的特点如图1所示。
由图1可以看出,测绘地理信息大数据在获取方式、存储方式、共享方式、扩展方式、管理方式等方面都有不同于传统测绘信息数据的特点,因此基于这些数据信息进行地理环境分析时需要有针对性地采用改进后的方法。为了获得更加精确的测绘信息数据分析结果,本文提出了利用自动分析与数据挖掘技术处理大数据信息的方法。
2、测绘地理信息遥感大数据自动分析方法
2.1 遥感大数据的表达方法
随着测绘技术的发展,尤其是卫星遥感技术的提升,测绘信息不仅以文本的形式表现,更多的时候采用影像的形式表现[3]。针对文本与影像相互混杂的遥感数据信息,进行表达与特征分析时可以按照图2所示的流程进行。
由图2可以看出,遥感测绘数据信息进行表达与特征分析时,主要是对文本与图像信息的综合处理。这两类信息在获取之后需要进行特征联合分析与本征表示,通过特征融合与归一化表示获得有效的数据流形和相关节点信息。其中,数据信息的融合主要是采用数据变换的方式将不同源、不同分辨率的多元特征离散化后统一到同一个分区特征空间中,实现数据维数的降低并易于提取主要特征,为获得特征节点信息奠定基础。
2.2 遥感大数据的存储与检索方法
遥感大数据进行特征表达之后,需要进行存储与检索。数据存储一般采用自建数据库的方式进行,通过对数据特征进行编码并归类后进行存储,同时搭建专用网络用于链接不同数据库,方便不同数据库之间信息的调取。对于存储的信息,为了实现快速检索,需要对信息数据之间的相似性和互异性进行计算和表征。可以对数据设置标签,根据不同标签的内容计算数据与标签之间的相似度,对标签相似度计算结果设置一定的阈值范围,只有在阈值范围以内的数据才可以算作相互之间存在相似性,否则就是互异的。对数据的相似性和互异性进行表征之后,同一标签下属的数据都是相似的,不同标签之间的数据都是互异的,这样就实现了对数据的有效分类。在对数据进行有效分类之后,可以利用知识驱动的方法实现遥感大数据的快速检索。
具体来说,基于知识驱动方法的遥感大数据检索方法主要由图3所示的关键环节组成。
由图3可以看出,遥感大数据检测主要是通过建立检索服务链实现数据特征的自主学习,通过构建智能检索系统输出用户所需场景,利用知识更新做好检索系统的自学习,为下一次信息检索提供自主实现功能。对信息特征的处理可以利用标签相似度的方法实现,之后利用人工神经网络构建知识在线自主学习机制,通过对标签数据的反复训练实现底层特征与高层语义之间的高精度关联,最终使检索系统具有自主检索数据信息的能力,达到“智能检索”的目的。
2.3 遥感大数据的理解方法
传统上遥感大数据是基于“面向特征”的处理方式进行理解的,利用大数据分析技术可以实现“面向特征”到“面向对象”处理方式的转变,从而实现对对象层-目标层的目标信息提取与识别。为了实现“面向对象”数据理解方式的转变,需要对特征-目标-场景语义进行数学建模,解决语义信息与特征信息之间的鸿沟问题,通过输入多元特征信息获得遥感大数据场景多元认知信息,为数据挖掘做好准备。
3、测绘地理信息遥感大数据挖掘方法
3.1 遥感大数据挖掘方法流程
数据挖掘是基于特征分析的进一步深化,通过对数据之间的相关性进行分析可以获得数据之间的规律变化,从而获得科学的决策信息。遥感数据挖掘可以采用图4所示的流程实现。
由图4可以看出,对数据信息挖掘之前需要进行分类与回归分析。当前,数据的分类与回归分析可以自己开发软件实现,也可以利用现有的软件进行,比如可以利用SPSS软件实现,也可以利用成熟的聚类方法、统计分析方法、云理论方法等实现。
3.2 遥感大数据挖掘示例
对于采集到的某遥感图像,该图像中有山地、丘陵、湖泊、平原等四类地形特征。为了给地形特征进行自动标记与分类,首先对平面像素进行归一化,得到的数值如表1所示。
对于归一化得到的数值,经过与实际数据对比,可以建立如下归类关系:山地,数值≥1.0;丘陵,1.0>数值≥0.7;湖泊,0.7>数值≥0.4;平原,0.4>数值≥0。对于以上数据,为了判定属于某类数据,可以利用直接分类的方法一一进行判断;但是,当数据量比较大的时候,利用这种直接分类的方法必然会造成分类时间的增加,同时也会造成结果精度的下降,因此,可以采用K-means算法进行自动分类。
K-means算法计算步骤如下所示:
Step1:计算样本数据与待分类数据之间的距离,一般采用欧氏距离表示,即其中,(x,y)表示待分类点坐标值,(xi,yi)表示样本数据坐标值,di表示相互之间的距离。
Step2:为待分类数据选择k个与其距离最小的样本;
Step3:统计出k个样本中大多数样本所述的分类;
Step4:依据统计结果确定待分类数据所属的类别。
按照以上步骤,对数据进行迭代计算,就可以获得理想的分类结果。
按照该方法对表1中的数据进行分类,结果如表2所示。
由表2可以看出,利用K-means算法计算得到的分类结果与直接分类方法的分类结果相一致,证明了这种分类方法的正确性,当数据量增大时可以直接进行运用。
4、结论
测绘地理信息数据分析具有一定的难度,其分析结果直接影响着对地理信息的判断精度。本文基于大数据分析技术研究了测绘地理信息遥感数据的自动分析与数据挖掘方法,后续在进行工程化应用时可以根据数据类型进行改进,通过不断提升数据分类的准确度,拓展大数据分析技术在测绘地理信息系统开发中的应用空间。
参考文献:
[1]韩熙.遥感大数据自动分析与数据挖掘研究[J].数码世界,2020,175(05);92.
[2]和树繁.遥感大数据自动分析与数据挖掘研究[J].科技经济市场,2018,11(09):9-10.
[3]梁金,刘志国,杨晓路.刍议遥感大数据自动分析及数据挖掘研讨[J].名城绘,2018(10):1.
文章来源:何骏.大数据在测绘地理信息方面的应用[J].科学技术创新,2021,(35):95-97.
分享:
软件系统和应用程序中经常面临特征数据缺失的情况,如物联网数据、医疗数据、材料数据等,数据缺失可能导致学习算法或程序性能下降甚至不可用。导致数据缺失的原因较多,如调研项目无回应、意外丢失或传输错误等。为了解决数据缺失问题,研究人员提出了一些有效的填补方法,按照采用技术的不同,可以分为基于统计学的方法和基于学习的方法。
2024-12-05智慧社区监控系统的研究和应用是当今社区管理领域的热点话题之一。随着城市化进程的不断推进和社会治理水平的提高,社区管理面临着日益复杂和多样化的安全挑战。在传统社区管理模式下,对于社区内安全事件的监测和管理往往依赖人工力量,存在着监控盲区、反应滞后、管理成本高等问题,限制了社区管理效率和安全防范水平的提升。
2024-12-04电力物联网作为物联网的一个重要应用领域,以其智能电网为基础,通过物联网、大数据、云计算等先进技术手段,实现了对电网所有数据的全面感知、收集、存储、计算与交换。这一领域的快速发展不仅极大地提升了电网的运行效率和智能化水平,同时也带来了前所未有的数据隐私保护挑战。
2024-12-03“异化”一词源于希腊语中“他者化”一词,指的是主体发展到了一定阶段,分裂出自己的对立面,变为了外在的异己的力量。对于人类社会而言,即表示人类创造出的产物与人类本体分离,并成为一种外在的负面异己力量与人类本体相对立,乃至最终凌驾于人类本体之上,使人类的本体性逐渐丧失。
2024-11-05城市品牌是当前城市研究中的热点概念。根据杜青龙的观点,城市品牌即城市可以在营销历史、生活方式和文化等资源的过程中,获取资本积累的机会、声望。城市品牌既是城市自然地理、历史人文、经济政治等的精准提炼与符号化表达,也是城市形象构建的核心资源。因此,加强城市品牌营销,已成为当前城市发展的重点。
2024-11-05电网覆盖范围的扩大,加之智能电网数据采集频率的提升,使得电网多级数据量呈现指数级暴涨,从最初的每秒钟几十兆字节增加至每秒钟几万兆字节,对智能电网的数据处理性能提出了更高的要求。受采集设备缺陷、采集环境等因素的影响,电网多级数据中包含大量的冗余数据,浪费了存储空间,降低了数据查询效果。
2024-09-20随着我国电网规模的日益扩大,能源建设的投入也在持续增加。其中,电力改造工程中的造价数据是决定工程整体管理水平的重要环节,准确、合理的数据分析有助于提升项目管理的水平并高效推进项目的整体进展。同时,在施工过程中由于受复杂的环境因素影响,各分段的子项目技术标准也会存在差异,因此所涉及到的数据具有多维性及海量性的特点。
2024-09-19随着科学技术的不断发展和进步,数字化技术已经广泛应用于各个领域。在建筑行业中,BIM技术已经成为数字化转型的核心技术。数字化工厂设计系统是以BIM技术为基础,实现了从建筑设计到设备安装、调试、运行的整个过程的数字化设计与协调。本文研究了基于BIM技术的数字化工厂设计系统的构建及应用,以期提高工厂设计的质量和效率。
2024-08-26随着我国工业化、城市化迅速发展,导致流动人口规模逐渐扩大。大规模的人口流动承载着技术、信息和资本在不同地区内流动,不仅形成新的人口空间分布格局,还影响城市的产业布局、经济发展以及自然环境。人口的分布是我国经济发展的重要因素之一,分布合理与否会直接影响经济的协调发展。
2024-04-17大数据时代为各类治理提供了前所未有的决策方式,数据是当今“世界上最有价值的资源”,“数据决策”成为现代化治理体系和治理能力的基本条件。与传统的小数据时代相比,数据有了大小之分,大数据具有数量大、种类多、流动快、反映真、算法复杂等特性;小数据是大数据的一个部分,体积小、易理解、算法简单,且“主要来源是抽样调查、深访、行政记录和实验设计等传统统计方法”。
2023-12-04人气:8374
人气:7891
人气:7529
人气:7273
人气:6327
我要评论
期刊名称:大数据
期刊人气:3703
主管单位:中华人民共和国工业和信息化部
主办单位:人民邮电出版社
出版地方:北京
专业分类:科技
国际刊号:2096-0271
国内刊号:10-1321/G2
邮发代号:2-537
创刊时间:2015年
发行周期:双月刊
期刊开本:16开
见刊时间:7-9个月
影响因子:0.693
影响因子:0.706
影响因子:1.052
影响因子:0.194
影响因子:0.491
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!