91学术服务平台

您好,欢迎来到91学术官网!业务合作:91xueshu@sina.com,站长邮箱:91xszz@sina.com

发布论文

论文咨询

手机信令数据对目标群体识别的影响

  2021-11-02    107  上传者:管理员

摘要:进店维修的客户流量是卡车维修店铺运营的关键,对客户身份的识别是统计客流量的前提。本文以某商用车维修服务站为研究对象,参考基于手机信令数据的职住空间识别思路,设计层次化数据清洗流程,最终从多类型人群中筛选出了进店维修目标群体(卡车司机)的手机信令数据,为下一步统计分析维修店铺客流量提供依据。

  • 关键词:
  • 卡车司机
  • 手机信令数据
  • 数据来源
  • 数据清洗
  • 维修服务站
  • 加入收藏

2019年度中国汽车售后服务满意度调查报告结果显示重卡用户去往维修点的分流比例中品牌授权特约维修站占77%,非授权修理厂、路边店等占23%,此满意度调查覆盖全国23省、10大重卡品牌[1]。近些年随着商用车技术的不断发展,卡车车型也随之更新换代,路边店已无法胜任一些专业维修工作。因此对维修店的评价显得尤为必要,评价的基础就要对其客流量进行评价,利用手机信令数据识别卡车司机轨迹是解决这一问题的关键。


一、数据来源


原始手机信令数据的基本格式包含手机用户唯一识别码IMSI号、时间戳、信令数据所属基站位置区编号LAC、基站小区编号CeLL-ID、事件类型等几个字段。每个字段的说明如下:

(1) IMSI(InternationalMobileSubscriberIdentity),国际移动用户识别码,存储于手机SIM卡,和手机号对应,具有唯一性,类似于手机卡的“身份证号”,用以标识和区别用户。

(2) LAC(位置区码)和CI(小区识别码)。LAC(locationareacode),移动通信系统中的位置区码,记录的是某个基站所覆盖的一片区域,也叫一个大区或基站区。一个基站区可包含一个或多个小区,而一个小区又对应一个小区标识,就是基站小区号,即CI(CellIdentity),可以通过LAC和CI确定较为准确的用户位置信息。一般而言,基站密度越大,覆盖范围越小,定位精度越高。用户密集的市区,通信业务量大,基站也多,基站间距为300m左右[2],覆盖半径一般在100~200m;郊区、县城的基站间距为600m左右,单个基站覆盖距离300m左右。理想的小区形状是正六边形的蜂窝网状。

(3) 位置更新和周期性更新。当手机用户因为位置不断变化而从一个基站小区移动到另一个基站小区时,用户的通信链路就会因为接收信号的强度从原基站切换到当前基站进行通信联系。当手机获悉自己当前的位置区有所变化时,会主动与无线网络联系,广播自己的位置;当位置区长时间没有变化时(长时间停留在某处、手机关机等),网络会要求手机周期性(按一定时间)报告自己当前所处的位置信息。周期性位置更新事件可以提高用户信令数据产生的频率,提高其行为轨迹的定位精度。

(4) 时间戳。记录了用户每个移动轨迹点的发生时间,也是触发某种信令事件的时间,精确到秒。

(5) 信令事件类型。记录了触发手机信令数据的用户手机业务类型,如开关机、收发短信、主叫被叫、正常位置更新、周期性位置更新、访问网络等。

(6) 用户基本属性信息。手机号、年龄、性别、号码归属地等信息,这些数据会做脱敏处理后用于模型计算。

本研究使用的手机信令数据由中国联通公司提供,首先要对研究的维修站进行空间位置和边界的明确[3],建立基站和维修点的映射关系,用于将手机用户的位置匹配至实际区域。本文选取某商用车维修服务站所在园区中心为圆心,以能覆盖住整个园区的半径350m画圆,此圆的覆盖范围即为电子围栏研究区,研究此区域内基站产生的信令数据。


二、数据处理


要实现基于手机信令数据的卡车维修店铺客流量统计,核心前提是利用运营商的信令数据分析完成对进店维修人群的识别,去除非修车司机数据。文章在充分分析不同时段内职住地用户活动行为特征和各种噪声数据特点后设计了层次化的数据清洗思路,具体如下:

定义在设定的研究时间段内获取的研究区域基站产生的手机信令数据为数据集N1。

第一步:输入N1,输出20~60岁男性数据集N2。据统计,卡车司机群体中的男性比例大概占99%,只有极少数的女性。同时,《机动车驾驶证申领和使用规定》要求A1、A2、B2驾驶证的申请和使用年限在20周岁以上,60周岁以下。所以第一步剔除女性数据和<20岁,>60岁的人口。

第二步:输入N2,去掉缺失数据、错误数据和触发事件失败数据后输出数据集N3。因为网络连接不畅、设备故障等原因造成某些属性值缺失的数据叫缺失数据,在一定程度上会影响结果的有效性,但此部分数据总量较小,直接将关键字段(如IMSI、LAC、ID)缺失及字段有误的对象进行删除对整个分析结果影响不大;错误数据是指不在研究范围内的数据,如日期不对或者超出研究区域的信令数据,此部分数据比较容易将其删除;触发信令数据失败的事件类型主要有:呼叫失败(主叫、被叫)、收发短信失败和位置更新失败(正常位置更新、周期性位置更新),因为触发事件失败原因不明,信令数据中的表征的地理经纬度可能并非用户的真实位置反映[4],为了减小误差,也将此类型数据进行删除。

第三步:输入N3,去掉重复数据后输出数据集N4。重复数据的产生一方面是因为手机用户在同一个位置区域频繁发生上网、通话或收发短信等通信活动,在短时间内产生连续位置相同的信令数据;另一方面是周期性位置更新,当手机长时间处于某个基站覆盖范围内又没有发生其他通信活动或跨区移动现象触发信令数据时,网络会要求手机每隔1个小时[5]左右上报自己的位置信息以便掌握手机当前状态,所以当卡车司机进入维修站大修、居民白天夜里在家和职员在公司上班时,用户手机都有可能产生多条字段完全相同的重复数据,此类数据增加了无效样本量和计算工作量,因此予以排除。

去重方法:

Step1:将经过清洗后的数据集N3按照用户分组,即将同一手机唯一识别码(IMSI)的用户信令数据归为一组。

Step2:将每个用户的手机信令数据按时间顺序排列。

Step3:遍历数据,如果连续多条时间点的信令在同一位置发生即时序上相邻的两轨迹点连接的基站相同,则保留连续相同数据的首条信令和末条信令,去除中间的重复数据,第一条和最后一条信令的时间差即为用户在该区域位置的停留时长。

第四步:输入N4,去掉乒乓数据后输出数据集N5。

在一定区域里两基站信号强度剧烈变化引起手机在两个基站间来回频繁切换产生的数据就叫“乒乓”数据[6]。当基站A的信号比基站B的弱时,手机会选择与基站B通信联系,若短时间内基站A的信号突然变强,手机又会马上切换至与基站A联系然后再跳与基站B联系。因“乒乓效应”产生的信令数据在表面上显示用户的位置发生了变化,而实际上,用户的位置并没有发生任何移动,所以这类数据一定要予以识别和剔除。

乒乓数据处理方法:

Step1:将用户u的信令数据按时间顺序排列,得到连续轨迹点Pi、Pi+1…Pi+K。

Step2:若用户在轨迹点Pi和Pi+K的基站位置信息一样,而中间的轨迹点与其前后的记录均不相同即中间的轨迹点只出现一次,且ti+K-ti<T(时间阈值)时,转到Step3;否则转到Step4。文章根据目前研究中的普遍经验取值将60秒作为判别乒乓数据的最大时间阈值。

Step3:将该时间段内基站相同的两条信令Pi和Pi+K记录之间的其他信令记录认定为虚假切换,加以删除,只保留第一条数据Pi和最后一条数据Pi+K,转到Step2。

Step4:令i+1=i,转到Step2。

第五步:输入N5,去掉漂移数据后输出数据集N6。手机信号从临近的基站突然切换到相对较远的基站,并在一定时间之后又切换回临近基站小区的现象称为信号漂移现象[7]。理论上当手机用户行驶在某条路上时基站的切换顺序应为A—B—C—E—F,但因信号漂移产生的实际切换顺序可能是A—B—C—D—E—F,说明D点发生了数据漂移,这条路径并不是用户真实的移动轨迹。漂移数据提供的虚假定位信息会对出行特征分析造成更大的影响,所以,一定要予以识别和剔除。

漂移数据处理方法:

Step1:将手机信令数据按用户唯一识别码进行分组。

Step2:将选定用户的轨迹数据按时间顺序排序,得到按时间递增的轨迹点。

Step3:依次取轨迹点集合中的第i条数据、第i+1条、第i+2条数据,计算相邻两条数据之间的距离d,时间间隔t,然后计算速度v=d/t,若vi,i+1>V,vi+2,i+1>V(V是设定的速度阈值),则判定第i+1点是数据漂移点,将其数据删除。若不满足上述条件,则从第i+1条数据开始继续按Step2往后进行,依次遍历用户u的所有信令数据。速度阈值的设定应与该城市人群时空出行特征相符,文章在充分分析研究区域地势特点和各类人群交通出行特征的基础上,将研究地城区道路交通的最高限速60Km/h作为速度上限值。

第六步:输入N6,去除居民数据后输出N7。在研究区域内,若用户的手机信令高频率在夜间休息时段出现时判定为附近常住居民,其出行行为有一定规律,可通过设置夜间时段、每日夜间停留时长和停留频次进行判别。本文选取夜间休息时段0:00~6:00,若一周内用户在研究区域重复出现天数大于5天[8]且日均驻留时长最长,则标记此手机信令数据样本为附近居民,并删除该用户的所有数据。

第七步:输入N7,去除工作人员数据后输出N8。卡车维修站工作人员(包括维修技术人员、管理人员、销售人员、后勤保洁人员等)和在服务站附近公司上班的人员,手机信令大部分时间都在工作日内出现在研究区域的用户判定为在维修站或附近上班的职工,出行行为有一定规律,可通过设置工作日日间时段、白天停留时长和停留频次进行判别。本文选取白天工作时段9:00~17:00,若一周内用户在研究区域重复出现天数大于5天且日均驻留时长最长,则判定此手机信令数据样本为工作人员,删除该用户所有数据。

第八步:输入N8,去除过路人员数据后输出N9。若用户在研究区域间停留时间不足以完成一次小修时间,则判定为过路人员。修车时间长短与车辆类型、故障类型、修理工技术和配件供应状况等因素有关。结合卡车司机问卷调查结果和专家指导意见,一般来说,车辆小修至少需要半个小时,大修一般三五天到一个星期。因此将时间阈值设为30分钟,若用户在研究区域停留时长少于30分钟,则判定其为过路人员。

具体方法如下:

Step1:将数据集N8按用户分组,并按时间顺序排列形成轨迹序列。

Step2:将在研究区域最早一次出现的用户手机信令时间记录为到达该区域的时间ti,将最后一次出现在研究区域的手机信令时间记录为离开该区域的时间ti+1,若用户i在研究区域基站下停留的时间(相邻两个轨迹点之间的时间差)ti+1-ti<30min,则判断用户i是过路人员,予以删除后输出数据集N9;否则转入Step3。

Step3:令i+1=i,转到Step2。

综上所述,数据集N9即为研究区域内剔除工作人口、居民人口和驻留时间不足30min的20~60岁的男性卡车司机数据,即目标群体信令数据。


三、结语


本文参考职住地判别方法建立卡车司机人群识别规则,从多人群信令数据中筛选出属于进店维修的卡车司机的手机信令数据。需要说明的是以上数据处理均是在人车机不分离、随修随走的假设前提下实施。遇到卡车大修,人车分离的情况还需结合其他判定条件进行识别,同时,对进入电子围栏研究区域且停留时间超过半小时但实际又没有修车的人群无法排除,可以结合公司订单加以确定,这也是未来研究工作需要改进之处。为了验证上述识别规则的准确性和合理性,下一步还需要对此商用车服务站输出的N9手机信令数据集进行扩样计算和验证分析。


参考文献:

[1]禾雨.2019年度中国汽车售后服务满意度调查报告[J].汽车与配件,2019(18):48-51.

[2]熊毅.基于泰森多边形原理的H市中心城区移动通信基站站址规划研究[J].移动通信,2017,41(14):27-30.

[3]程志华.基于手机信令数据的旅游交通客流特征分析―—以乌鲁木齐市为例[J].运输经理世界,2018(02):94-96.

[4]胡永恺.基于手机信令的轨道交通乘客出行行为分析方法研究[D].江苏:东南大学,2017.

[5]孙业雷.基于手机信令数据的居民活动空间分析系统的设计与实现[D].吉林:吉林大学,2020.

[6]马克明.GSM高层覆盖优化方案浅析[J].技术与市场,2011,18(12):89.

[7]戚新洲,马万经.手机信令数据动态OD矩阵提取与时空特征分析[C].第十三届中国智能交通年会论文集,2018:141-158.

[8J]姚海芳,冯天楠,刘劲松基于手机信令数据的机场航空旅客分类识别研究——以石家庄正定国际机场为例[J].地理与地理信息科学,2020,36(03):56-62.


文章来源:赵丽,魏仁干.基于手机信令数据的目标群体识别研究[J].科技风,2021(30):74-76.

分享:

91学术论文范文

相关论文

推荐期刊

网友评论

加载更多

我要评论

现代传输

期刊名称:现代传输

期刊人气:641

期刊详情

主管单位:信息产业部

主办单位:电信科学技术第五研究所有限公司

出版地方:四川

专业分类:科技

国际刊号:1673-5137

国内刊号:51-1692/TN

创刊时间:1975年

发行周期:双月刊

期刊开本:大16开

见刊时间:7-9个月

论文导航

查看更多

相关期刊

热门论文

【91学术】(www.91xueshu.com)属于综合性学术交流平台,信息来自源互联网共享,如有版权协议请告知删除,ICP备案:冀ICP备19018493号

400-069-1609

微信咨询

返回顶部

发布论文

上传文件

发布论文

上传文件

发布论文

您的论文已提交,我们会尽快联系您,请耐心等待!

知 道 了

登录

点击换一张
点击换一张
已经有账号?立即登录
已经有账号?立即登录

找回密码

找回密码

你的密码已发送到您的邮箱,请查看!

确 定