摘要:进店维修的客户流量是卡车维修店铺运营的关键,对客户身份的识别是统计客流量的前提。本文以某商用车维修服务站为研究对象,参考基于手机信令数据的职住空间识别思路,设计层次化数据清洗流程,最终从多类型人群中筛选出了进店维修目标群体(卡车司机)的手机信令数据,为下一步统计分析维修店铺客流量提供依据。
2019年度中国汽车售后服务满意度调查报告结果显示重卡用户去往维修点的分流比例中品牌授权特约维修站占77%,非授权修理厂、路边店等占23%,此满意度调查覆盖全国23省、10大重卡品牌[1]。近些年随着商用车技术的不断发展,卡车车型也随之更新换代,路边店已无法胜任一些专业维修工作。因此对维修店的评价显得尤为必要,评价的基础就要对其客流量进行评价,利用手机信令数据识别卡车司机轨迹是解决这一问题的关键。
一、数据来源
原始手机信令数据的基本格式包含手机用户唯一识别码IMSI号、时间戳、信令数据所属基站位置区编号LAC、基站小区编号CeLL-ID、事件类型等几个字段。每个字段的说明如下:
(1) IMSI(InternationalMobileSubscriberIdentity),国际移动用户识别码,存储于手机SIM卡,和手机号对应,具有唯一性,类似于手机卡的“身份证号”,用以标识和区别用户。
(2) LAC(位置区码)和CI(小区识别码)。LAC(locationareacode),移动通信系统中的位置区码,记录的是某个基站所覆盖的一片区域,也叫一个大区或基站区。一个基站区可包含一个或多个小区,而一个小区又对应一个小区标识,就是基站小区号,即CI(CellIdentity),可以通过LAC和CI确定较为准确的用户位置信息。一般而言,基站密度越大,覆盖范围越小,定位精度越高。用户密集的市区,通信业务量大,基站也多,基站间距为300m左右[2],覆盖半径一般在100~200m;郊区、县城的基站间距为600m左右,单个基站覆盖距离300m左右。理想的小区形状是正六边形的蜂窝网状。
(3) 位置更新和周期性更新。当手机用户因为位置不断变化而从一个基站小区移动到另一个基站小区时,用户的通信链路就会因为接收信号的强度从原基站切换到当前基站进行通信联系。当手机获悉自己当前的位置区有所变化时,会主动与无线网络联系,广播自己的位置;当位置区长时间没有变化时(长时间停留在某处、手机关机等),网络会要求手机周期性(按一定时间)报告自己当前所处的位置信息。周期性位置更新事件可以提高用户信令数据产生的频率,提高其行为轨迹的定位精度。
(4) 时间戳。记录了用户每个移动轨迹点的发生时间,也是触发某种信令事件的时间,精确到秒。
(5) 信令事件类型。记录了触发手机信令数据的用户手机业务类型,如开关机、收发短信、主叫被叫、正常位置更新、周期性位置更新、访问网络等。
(6) 用户基本属性信息。手机号、年龄、性别、号码归属地等信息,这些数据会做脱敏处理后用于模型计算。
本研究使用的手机信令数据由中国联通公司提供,首先要对研究的维修站进行空间位置和边界的明确[3],建立基站和维修点的映射关系,用于将手机用户的位置匹配至实际区域。本文选取某商用车维修服务站所在园区中心为圆心,以能覆盖住整个园区的半径350m画圆,此圆的覆盖范围即为电子围栏研究区,研究此区域内基站产生的信令数据。
二、数据处理
要实现基于手机信令数据的卡车维修店铺客流量统计,核心前提是利用运营商的信令数据分析完成对进店维修人群的识别,去除非修车司机数据。文章在充分分析不同时段内职住地用户活动行为特征和各种噪声数据特点后设计了层次化的数据清洗思路,具体如下:
定义在设定的研究时间段内获取的研究区域基站产生的手机信令数据为数据集N1。
第一步:输入N1,输出20~60岁男性数据集N2。据统计,卡车司机群体中的男性比例大概占99%,只有极少数的女性。同时,《机动车驾驶证申领和使用规定》要求A1、A2、B2驾驶证的申请和使用年限在20周岁以上,60周岁以下。所以第一步剔除女性数据和<20岁,>60岁的人口。
第二步:输入N2,去掉缺失数据、错误数据和触发事件失败数据后输出数据集N3。因为网络连接不畅、设备故障等原因造成某些属性值缺失的数据叫缺失数据,在一定程度上会影响结果的有效性,但此部分数据总量较小,直接将关键字段(如IMSI、LAC、ID)缺失及字段有误的对象进行删除对整个分析结果影响不大;错误数据是指不在研究范围内的数据,如日期不对或者超出研究区域的信令数据,此部分数据比较容易将其删除;触发信令数据失败的事件类型主要有:呼叫失败(主叫、被叫)、收发短信失败和位置更新失败(正常位置更新、周期性位置更新),因为触发事件失败原因不明,信令数据中的表征的地理经纬度可能并非用户的真实位置反映[4],为了减小误差,也将此类型数据进行删除。
第三步:输入N3,去掉重复数据后输出数据集N4。重复数据的产生一方面是因为手机用户在同一个位置区域频繁发生上网、通话或收发短信等通信活动,在短时间内产生连续位置相同的信令数据;另一方面是周期性位置更新,当手机长时间处于某个基站覆盖范围内又没有发生其他通信活动或跨区移动现象触发信令数据时,网络会要求手机每隔1个小时[5]左右上报自己的位置信息以便掌握手机当前状态,所以当卡车司机进入维修站大修、居民白天夜里在家和职员在公司上班时,用户手机都有可能产生多条字段完全相同的重复数据,此类数据增加了无效样本量和计算工作量,因此予以排除。
去重方法:
Step1:将经过清洗后的数据集N3按照用户分组,即将同一手机唯一识别码(IMSI)的用户信令数据归为一组。
Step2:将每个用户的手机信令数据按时间顺序排列。
Step3:遍历数据,如果连续多条时间点的信令在同一位置发生即时序上相邻的两轨迹点连接的基站相同,则保留连续相同数据的首条信令和末条信令,去除中间的重复数据,第一条和最后一条信令的时间差即为用户在该区域位置的停留时长。
第四步:输入N4,去掉乒乓数据后输出数据集N5。
在一定区域里两基站信号强度剧烈变化引起手机在两个基站间来回频繁切换产生的数据就叫“乒乓”数据[6]。当基站A的信号比基站B的弱时,手机会选择与基站B通信联系,若短时间内基站A的信号突然变强,手机又会马上切换至与基站A联系然后再跳与基站B联系。因“乒乓效应”产生的信令数据在表面上显示用户的位置发生了变化,而实际上,用户的位置并没有发生任何移动,所以这类数据一定要予以识别和剔除。
乒乓数据处理方法:
Step1:将用户u的信令数据按时间顺序排列,得到连续轨迹点Pi、Pi+1…Pi+K。
Step2:若用户在轨迹点Pi和Pi+K的基站位置信息一样,而中间的轨迹点与其前后的记录均不相同即中间的轨迹点只出现一次,且ti+K-ti<T(时间阈值)时,转到Step3;否则转到Step4。文章根据目前研究中的普遍经验取值将60秒作为判别乒乓数据的最大时间阈值。
Step3:将该时间段内基站相同的两条信令Pi和Pi+K记录之间的其他信令记录认定为虚假切换,加以删除,只保留第一条数据Pi和最后一条数据Pi+K,转到Step2。
Step4:令i+1=i,转到Step2。
第五步:输入N5,去掉漂移数据后输出数据集N6。手机信号从临近的基站突然切换到相对较远的基站,并在一定时间之后又切换回临近基站小区的现象称为信号漂移现象[7]。理论上当手机用户行驶在某条路上时基站的切换顺序应为A—B—C—E—F,但因信号漂移产生的实际切换顺序可能是A—B—C—D—E—F,说明D点发生了数据漂移,这条路径并不是用户真实的移动轨迹。漂移数据提供的虚假定位信息会对出行特征分析造成更大的影响,所以,一定要予以识别和剔除。
漂移数据处理方法:
Step1:将手机信令数据按用户唯一识别码进行分组。
Step2:将选定用户的轨迹数据按时间顺序排序,得到按时间递增的轨迹点。
Step3:依次取轨迹点集合中的第i条数据、第i+1条、第i+2条数据,计算相邻两条数据之间的距离d,时间间隔t,然后计算速度v=d/t,若vi,i+1>V,vi+2,i+1>V(V是设定的速度阈值),则判定第i+1点是数据漂移点,将其数据删除。若不满足上述条件,则从第i+1条数据开始继续按Step2往后进行,依次遍历用户u的所有信令数据。速度阈值的设定应与该城市人群时空出行特征相符,文章在充分分析研究区域地势特点和各类人群交通出行特征的基础上,将研究地城区道路交通的最高限速60Km/h作为速度上限值。
第六步:输入N6,去除居民数据后输出N7。在研究区域内,若用户的手机信令高频率在夜间休息时段出现时判定为附近常住居民,其出行行为有一定规律,可通过设置夜间时段、每日夜间停留时长和停留频次进行判别。本文选取夜间休息时段0:00~6:00,若一周内用户在研究区域重复出现天数大于5天[8]且日均驻留时长最长,则标记此手机信令数据样本为附近居民,并删除该用户的所有数据。
第七步:输入N7,去除工作人员数据后输出N8。卡车维修站工作人员(包括维修技术人员、管理人员、销售人员、后勤保洁人员等)和在服务站附近公司上班的人员,手机信令大部分时间都在工作日内出现在研究区域的用户判定为在维修站或附近上班的职工,出行行为有一定规律,可通过设置工作日日间时段、白天停留时长和停留频次进行判别。本文选取白天工作时段9:00~17:00,若一周内用户在研究区域重复出现天数大于5天且日均驻留时长最长,则判定此手机信令数据样本为工作人员,删除该用户所有数据。
第八步:输入N8,去除过路人员数据后输出N9。若用户在研究区域间停留时间不足以完成一次小修时间,则判定为过路人员。修车时间长短与车辆类型、故障类型、修理工技术和配件供应状况等因素有关。结合卡车司机问卷调查结果和专家指导意见,一般来说,车辆小修至少需要半个小时,大修一般三五天到一个星期。因此将时间阈值设为30分钟,若用户在研究区域停留时长少于30分钟,则判定其为过路人员。
具体方法如下:
Step1:将数据集N8按用户分组,并按时间顺序排列形成轨迹序列。
Step2:将在研究区域最早一次出现的用户手机信令时间记录为到达该区域的时间ti,将最后一次出现在研究区域的手机信令时间记录为离开该区域的时间ti+1,若用户i在研究区域基站下停留的时间(相邻两个轨迹点之间的时间差)ti+1-ti<30min,则判断用户i是过路人员,予以删除后输出数据集N9;否则转入Step3。
Step3:令i+1=i,转到Step2。
综上所述,数据集N9即为研究区域内剔除工作人口、居民人口和驻留时间不足30min的20~60岁的男性卡车司机数据,即目标群体信令数据。
三、结语
本文参考职住地判别方法建立卡车司机人群识别规则,从多人群信令数据中筛选出属于进店维修的卡车司机的手机信令数据。需要说明的是以上数据处理均是在人车机不分离、随修随走的假设前提下实施。遇到卡车大修,人车分离的情况还需结合其他判定条件进行识别,同时,对进入电子围栏研究区域且停留时间超过半小时但实际又没有修车的人群无法排除,可以结合公司订单加以确定,这也是未来研究工作需要改进之处。为了验证上述识别规则的准确性和合理性,下一步还需要对此商用车服务站输出的N9手机信令数据集进行扩样计算和验证分析。
参考文献:
[1]禾雨.2019年度中国汽车售后服务满意度调查报告[J].汽车与配件,2019(18):48-51.
[2]熊毅.基于泰森多边形原理的H市中心城区移动通信基站站址规划研究[J].移动通信,2017,41(14):27-30.
[3]程志华.基于手机信令数据的旅游交通客流特征分析―—以乌鲁木齐市为例[J].运输经理世界,2018(02):94-96.
[4]胡永恺.基于手机信令的轨道交通乘客出行行为分析方法研究[D].江苏:东南大学,2017.
[5]孙业雷.基于手机信令数据的居民活动空间分析系统的设计与实现[D].吉林:吉林大学,2020.
[6]马克明.GSM高层覆盖优化方案浅析[J].技术与市场,2011,18(12):89.
[7]戚新洲,马万经.手机信令数据动态OD矩阵提取与时空特征分析[C].第十三届中国智能交通年会论文集,2018:141-158.
[8J]姚海芳,冯天楠,刘劲松基于手机信令数据的机场航空旅客分类识别研究——以石家庄正定国际机场为例[J].地理与地理信息科学,2020,36(03):56-62.
文章来源:赵丽,魏仁干.基于手机信令数据的目标群体识别研究[J].科技风,2021(30):74-76.
分享:
在扩频通信系统中,四相相移键控(Quadrature⁃PhaseShiftKeying,QPSK)信号具有误码率低、频谱利用率高等特点[1,2],应用越来越广。为了提高其抗干扰性,I、Q支路分别调制扩频码,如果载波多普勒动态范围大,不完全解扩I、Q支路上的扩频码情况下,锁相的环路无法直接进行载波捕获[3]。一般的扩频系统中都是先进行FFT运算对载波进行初始捕获,再通过锁相环进行跟踪捕获,可见精确的FFT算法是至关重要的[4]。
2024-01-03需要解决的问题。典型远程探测场景下,4 000 km处干扰机与弹头之间的角度间隔仅为0.02°~0.05°,导致常规的单站抗主瓣干扰手段力不从心。例如:利用和差波束的主瓣对消方法可以抑制近主瓣干扰(≥1 5波束宽度)[1,2,3],但对上述场景的目标信干比改善不足5 dB,不满足实际应用需求;盲源分离方法[4,5,6,7,8]利用混合信号相对于源信号统计特性变化找到信号的分离点,从而实现干扰与目标信号的分离。
2024-01-03显示玻璃破碎机理为玻璃缺陷位置应力集中导致裂纹萌生与扩展,并采用断裂分析技术解析起源位置、裂纹扩展、应力类型、冲击和摩擦方向等,全方位研究了玻璃断裂机理;文献[2]研究表明,显示玻璃强度主要取决于表面及边缘缺陷,并通过表面强度测试[3,4]、边缘强度测试[5,6]和冲击强度测试[7,8]表征玻璃强度;文献[9]基于神经网络算法,通过选取玻璃缺陷图像进行神经网络训练,对常见玻璃缺陷进行精确分类及识别。
2024-01-03随着城市化进程的加速,高层建筑物的数量不断增加,电梯已成为高层建筑中必不可少的交通工具[1]。尽管电梯内的电波传播不受自然气候因素的影响,但是电梯环境封闭、区域结构复杂、室外信号难以穿透等因素导致电梯内网络信号较差,严重影响了人们的通信体验和面临突发事件时的应急通信保障。因此,电梯信号覆盖成为各大运营商关注的重点。
2024-01-03正交时频空(Orthogonal Time Frequency Space,OTFS)调制是一种能够面对高速移动通信特性的先进调制技术。OTFS通过将发送数据经预处理和星座调整后映射到时延⁃多普勒(Delay⁃Doppler,DD)域,并经过一系列的二维变换使得同一个发送OTFS帧内的信号捕获到DD域等效信道的稀疏性,都经历了与时间选择无关的慢衰落,从而获得信道时间和频率的全分集增益以及更优越的抗干扰性能[3]。
2024-01-03早期的研究通常采用人工提取特征和传统机器学习方法进行情感识别.Bahari等[7]采用非线性k基于递归图的最近邻分类器(KNN),以识别不同的情感.Wang等 [8]使用基于频域特征的支持向量机(SVM)分类器对不同情感进行分类.然而,传统机器学习技术受到特征设计和特征选择的限制,需要大量的专业知识才能设计出性能更优的分类器.
2024-01-03无线传感器网络(Wireless Sensor Network,WSN)已广泛应用于许多领域,如森林火灾监测、建筑监控等[1,2,3]。一般来说,无线传感器网络由大量的传感器组成。由于这些传感器由能量受限的电池供电,网络的运行时间通常是有限的,这阻碍了传感器网络的发展[4,5,6]。考虑到每个传感器的电池容量是有限的,在电池耗尽之前补充传感器的能量供应至关重要。
2024-01-02快速傅里叶变换(FFT)是数字信号处理领域应用最广泛的算法,其广泛应用于数字通信、雷达系统、成像系统以及图像处理系统中。随着现代数字信号处理技术的发展,系统对于FFT的数据处理精度有着更高的要求。同时,不同的应用环境需要使用不同点数的FFT,对于当前的数字信号处理系统来说,也存在不同点数FFT动态实时切换的应用场景。因此,需要高精度、点数可配置的FFT处理器。
2024-01-02社区是城市的重要组成单元,社区治理水平直接影响城市的治理水平。为了提升社区智慧化管理水平,物联网技术被广泛应用[3,4,5],大量的水压[6,7]、烟感[8]等方面的感知设备在社区部署。大量物联网设备产生了海量的未清洗感知数据[9,10],冗余消息甚至是误报消息夹杂在一起,加重了社区运营管理负担;同时,部署设备的运维与管理也处于空白状态。
2023-10-23随着物联网(IoT)应用的大规模部署,室内人体活动检测受到了越来越多的关注。现存的系统大多需要人员携带传感器等外部设备,存在许多的局限性,如百度的“Baidu Eye”,哈工大的可识别手指的字母手套“CyberGlove”等。基于摄像头的活动识别无需携带外部设备但受限于光照和隐私等外部因素。
2023-09-06人气:3552
人气:2150
人气:1723
人气:1616
人气:1548
我要评论
期刊名称:现代传输
期刊人气:641
主管单位:信息产业部
主办单位:电信科学技术第五研究所有限公司
出版地方:四川
专业分类:科技
国际刊号:1673-5137
国内刊号:51-1692/TN
创刊时间:1975年
发行周期:双月刊
期刊开本:大16开
见刊时间:7-9个月
影响因子:0.407
影响因子:0.095
影响因子:0.500
影响因子:0.497
影响因子:0.353
400-069-1609
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!