摘要:为了加强新能源汽车市场销量数据的收集、分析与处理,论文采用Python爬虫技术,抓取新能源汽车的销售数据,运用数据可视化技术将经过数据处理的销量进行可视化分析并图标的形式直观地展示,使用ARIMA、SARIMA和LSTM三种模型算法,对这些车型的销量进行深入地预测和分析。使用平均绝对误差(MAE)和均方根误差(RMSE)两种指标,对模型的预测效果进行评估和比较,这将为消费者、汽车制造商提供准确的数据支持,辅助他们作出更明智的决策和规划。
加入收藏
1、研究背景
在新能源汽车市场的销量分析中,常遇到数据更新不及时、市场竞争激烈、车型结构复杂等问题,导致销量数据的分析存在一定的不一致和局限性,这种因素的累加,进一步增添了研究人员对新能源汽车销量数据分析的难度。在大数据技术、环境保护等的背景下,新能源汽车有了这些智能技术与大环境的加持,与新能源汽车的相关技术的话题将会引来众多研究者与消费者的关注。通过大数据技术的新能源汽车销量的分析与预测研究可以提高市场参与者的决策能力和决策水平,促进新能源汽车市场的优化和升级。
网络爬虫作为一个替代人力手动浏览搜索并获取数据的技术,已经成为研究人员在各个领域实践应用中较为普遍的工具。在对新能源汽车数据获取方面,鲍培东等运用网络爬虫技术分别对新能源汽车售卖平台的价格、品牌和销量等数据进行爬取,并将爬取到的数据进行进一步的分析和加工[1]。严丹丹利用爬虫技术和八爪鱼采集器获取“爱卡汽车网”上用户发布的关于新能源汽车的口碑数据,共爬取了四万多条文本数据,经过处理后保留了31376条数据作为最终的数据库,并从多个方面分析研究新能源汽车市场现状[2]。此外,可视化技术目前已经成为数据分析中不可或缺的工具,它能够帮助研究者从不同角度深入理解数据,发现数据背后的模式和趋势,并为决策提供有力支持。在使用可视化技术分析方面,Haitao G等结合使用大数据可视化技术对城市道路拥堵的情况进行可视化分析[3]。郭瑾通过爬虫获取一些主流招聘网站的招聘信息后使用Python的Matplotlib可视化库对获取下来并经过统计处理后的招聘数据进行可视化展示[4]。随着新能源汽车的销量预测方法逐渐受到重视,研究者不断探索,融合、优化模型,以更加精确预测新能源汽车销量,为行业及消费者提供更加实用的市场信息。张娟在对时间序列的影响因素进行分析后,建立了SARIMA(1,0,0)(0,1,0)12模型,并运用该模型对新能源汽车未来的销量进行了预测[5]。Shetty K S等使用ARIMA、SARIMA和LSTM技术对一家印度汽车公司的销量进行预测,并研究比较这些模型的精度[6]。
综上所述,网络爬虫技术、数据可视化分析及新能源汽车的数据销量预测等领域已成为研究的焦点。论文利用网络爬虫技术从互联网自动化地获取汽车销量数据,采用可视化分析工具通过将复杂数据以直观形式展现,运用ARIMA、SARIMA和LSTM三种模型算法,对不同车型的销量进行探索式的预测并分析,辅助决策者们更准确地洞察市场动态,从而作出更精准和科学的决策。
2、爬虫理论与技术
在进行网络爬虫的数据采集时,有以下几个方面:
(1)明确URL:进行网络爬虫数据采集的首要步骤是明确需要采集数据的URL链接,针对不同的采集需求则需要了解并获取相应的URL链接,以供接下来的采集任务有序进行。
(2)解析页面:明确好需要进行采集任务的URL链接后,要对这个页面进行访问,并解析页面中要采集的数据具体的存放位置,为后续进行采集时能够准确定位页面元素,以精确地采集到所需的数据做准备工作。
(3)防反爬技术:网站可能会设置限制IP访问频率、验证码等反爬虫机制来防止爬虫的自动化程序对网站正常运转造成的影响,在符合爬虫相关法律法规和隐私政策下为了能够顺利采集到相应的数据,需要采取相应的使用代理IP、处理验证码等技术手段来规避反爬。
(4)存储数据:为进一步的研究分析提供数据支撑,方便管理,采集下来的数据需要利用存储介质来存放,接着可以选择将采集完成的数据存储到本地文件或是数据库中。
Selenium是一个开源的网络自动化测试框架,广泛用于Web应用的测试工作,它的工作机制是编写自动化脚本来控制浏览器,使得Selenium能够直接与浏览器进行交互。在Selenium Web Driver的众多功能中,get方法主要用于导航至一个新的网页,而find_elements方法则用于搜索页面上的元素。find_elements方法需要一个定位器作为输入,这个定位器指导Web Driver如何在页面上定位到特定的元素。如图1是selenium的工作原理流程图。
图1 selenium工作流程
3、新能源汽车销量爬取与数据处理
3.1爬取对象
爬取对象主要包括两个部分:URL和网页内容。URL:首先,需要明确需要爬取的目标页面的URL。本文需要访问太平洋汽车网平台的URL为:太平洋汽车网(pcauto.com.cn),爬取太平洋汽车网平台的汽车排行榜中电动汽车的销量数据,该页面的URL为:(https://price.pcauto.com.cn/top/evsales/s1-t1.html)。
网页内容:获取到需要进行数据爬取的网页URL后,进一步利用Python爬虫对该平台的网页进行访问,可以通过解析太平洋汽车网平台的网页结构,了解该网页页面中需要爬取的数据具体存放在哪个类中。通过使用Selenium模拟浏览器行为,利用Web Driver实例的get方法打开指定的URL,并使用Web Driver实例的find_elem-ents方法来定位页面上需要获取的元素,获取到该平台上的电动轿车、SUV、MPV及商用车销量排行榜内容。例如存放电动汽车销量排行榜数据的类名(class)为“col1、col2、col3、col4、col5、col6”,如图2所示。
图2 检查存放销量排行榜数据的类名
3.2爬虫数据处理
爬取得到的原始数据可能包含缺失值、重复值以及异常值等情况,未经适当处理的数据可能导致建模问题,影响模型预测,甚至无法建立模型,进而影响研究进展和预测结果。因此,可以利用pandas对数据进行清洗、转换、筛选、聚合和关联等数据处理操作。
图3 原始数据
如图3是爬取到的原始数据。在每个原始数据的基础上进行处理,使用drop函数删除一些不需要使用的列,例如列名为:销量排名、官方价、本年累计销量,这三个列名的数据在本研究分析中为无关项;并遍历所有关于轿车、SUV、MPV及商用车的销量数据文件,使用groupby分组函数按照车型的从属品牌进行分组,并使用sum求和函数将分组好的从属品牌的销量累加起来;最后通过将轿车、SUV、MPV及商用车三种车型2019年1月至2024年1月里每年每月的销量数据整合统计后得到如图4所示的各车型的总销量数据,图5为车型从属品牌销量数据。
图4 各车型总销量数据
图5 车型从属品牌数据
4、新能源汽车销量的可视化分析
经过处理的销量数据,通过使用Python第三方库的pyecharts绘制折线图来展示新能源电动轿车、SUV、MPV及商用车的总销量,并分别展示了比亚迪秦PLUS、特斯拉Model Y、腾势D9的销量,使用词云图来展示三个车型的从属品牌销量,进行可视化分析。
4.1轿车销量可视化分析
图6是新能源电动轿车2019年1月至2024年1月的销量时序图。
图6 轿车2019年1月至2024年1月销量时序
如图6中所示,在2019年1月到2024年1月的这段时间里,新能源汽车技术的不断成熟反映了消费者对这类车辆认识的提高,政府的政策扶持和汽车企业的市场推广活动也在推动销量增长方面发挥了积极的作用。而其中出现的波动可能与全球经济环境、原材料价格的波动以及新能源汽车市场竞争的加剧有关。
图7是轿车从属品牌的销量词云图。从图中可以看出,在众多新能源电动轿车品牌中,丰田品牌在词云图中以最显眼的字体呈现,接着是比亚迪,其电动汽车产品线包括秦、宋、汉、唐等系列以及多款车型,这种产品多样性使得比亚迪能够满足不同消费者需求,推动销量增长。
图7 轿车从属品牌销量词云图
4.2 SUV销量可视化分析
图8是新能源电动SUV2019年1月至2024年1月的销量时序图。SUV销量整体呈现上升的趋势,在2020年初期间可能与当时COVID-19的爆发对全球经济和消费者市场造成巨大的冲击,出现了显著的下滑,2022年至2024年1月,电动SUV销量的波动性可能是全球原材料价格的波动、芯片短缺对汽车制造业产生了显著影响较为明显,进而影响了销量。
图8 SUV 2019年1月至2024年1月销量时序
图9 SUV从属品牌销量词云图
图9是SUV从属品牌的销量词云图。这张词云图展现了在SUV从属品牌的销量中,丰田的销量高居榜首,在词云图中以最大字体呈现。其次是特斯拉,作为电动汽车行业的领先企业,其品牌在词云图中较为突出,其先进的电动技术、卓越的性能和时尚的设计,赢得了全球消费者的青睐。
4.3 MPV及商用车销量可视化分析
图10是新能源电动MPV及商用车2019年1月至2024年1月的销量时序图。从2019年1月到2024年1月,新能源汽车的性能提升和成本下降使得越来越多的企业和个人会开始选择电动MPV及商用车作为其运输工具,销量整体呈现上升趋势。而期间可能是市场供需关系、产品质量、消费者需求变化等多种因素共同作用,市场有明显波动,可以看出销量仍然没有达到很高的水平,这意味着新能源MPV及商用车市场还有很大的发展空间未来有望继续保持增长态势。
图1 0 MPV及商用车2019年1月至2024年1月的销量时序
图11是MPV及商用车从属品牌的销量词云图。不同品牌在新能源电动MPV和商用车的市场定位和策略也可能不同导致销量上的差异。本田的字体最大,其通过推出多款电动MPV及商用车型并利用其品牌优势吸引了大量消费者。广汽传祺在词云图中的字体也比较大,广汽传祺的GM6、GM8以其宽敞的车内空间、舒适的乘坐体验和较高的性价比,受到了家庭用户和商务客户的欢迎。
图1 1 MPV及商用车从属品牌销量词云图
5、能源汽车销量预测
在实验预测中,选取了轿车、SUV、MPV及商用车三种车型中总共九款车系进行销量预测,预测实验的时间跨度都为2019年1月至2024年1月,并将每款车系2024年1月的销量值作为实际值与模型所预测得出的预测值做对比。实验中使用了三种预测模型:ARI-MA、SARIMA和LSTM,并为了评估这些模型的预测表现,使用了平均绝对误差(MAE)和均方根误差(RMSE)。
5.1预测模型及评估指标概述
ARIMA模型用于分析和预测时间序列数据。它结合了自回归(AR)、差分(I)和移动平均(MA)三个部分。SARIMA模型在ARIMA模型基础上增加了对季节性因素的考虑,季节性AR、季节性差分和季节性MA三项,以及周期s,使得在季节性时间序列分析中更加准确。LSTM属于循环神经网络的一种改进型态,为了克服标准RNN在处理长序列数据时容易出现的梯度消失或梯度爆炸的问题,其引入了一种新颖的“门控”机制,从而更好地捕捉和利用长期依赖关系。
MAE是衡量预测模型或估计方法准确性的一种常用指标,是通过计算预测值与实际观测值之间差异的绝对值的平均数来量化误差。由于MAE考虑的是绝对值,它不会因正负误差相互抵消而减小。均方根误差(RMSE)的单位与原始数据保持一致,因此其数值越低,代表模型的预测准确度越高,RMSE对数据中出现的极端偏差非常敏感,能够很好地捕捉到测量值的精确性。
5.2模型预测效果对比
表1是三种模型最佳预测参数效果对比。太平洋汽车网平台仅提供近五年的新能源汽车销量数据,在数据量较为限制时的预测操作中,ARIMA模型的平均绝对误差MAE达到了0.309,均方根误差RMSE为0.331,这意味着模型的预测精度还有待提高。ARIMA模型在处理呈现线性特征的数据时表现较好,但在面对具有复杂非线性特性的数据时,其预测效果可能不会很理想,这可能是导致预测误差较大的原因之一。
表1 三种模型的最佳预测参数效果对比
SARIMA模型在本次预测中的平均绝对误差MAE为0.313,均方根误差RMSE为0.437,其预测效果并没有超过ARIMA模型。这可能是因为新能源汽车销量的季节性波动并不规律,或者存在其他一些复杂的变化,而SARIMA模型未能充分捕捉到这些波动。
与ARIMA、SARIMA模型的预测效果相比较,LSTM模型的预测误差较小,它的平均绝对误差MAE为0.276、均方根误差RMSE为0.306,在三种模型的预测效果中是最好的。LSTM模型在处理非线性和复杂数据上具有明显优势,但如果在数据量不足的情况下,模型性能可能会受到一些影响。为了进一步提高LSTM模型的预测准确性,可能需要更多的数据和更强大的计算资源来支持。
6、总结
通过利用Python爬虫技术,从太平洋汽车网平台上爬取新能源汽车的历史销量信息,基于这些历史销量数据进行处理统计分析,运用数据可视化技术将经过数据处理的销量进行可视化分析以图标的形式直观地展示,使用ARIMA、SARIMA和LSTM三种模型算法,预测未来的汽车市场销量走势。接下来有必要进行更为深入的研究与实验,还需要不断深化对新能源汽车销量的数据采集、数据分析和预测建模等方面的研究,通过算法优化和应用创新来提高新能源汽车销量预测的精确性和应用效果。
参考文献:
[1]鲍培东,宛楠,王婷婷,等.基于Python的新能源汽车数据爬取与数据可视化分析研究[J].轻工科技,2023,39(5):105-107.
[2]严丹丹.基于新能源汽车用户评论的主题挖掘和情感分析[D].广西师范大学,2024.
[4]郭瑾.基于Python的招聘数据爬取与数据可视化分析研究[J].轻工科技,2024,40(2):94-96.
[5]张娟.基于数据挖掘的我国新能源汽车市场分析和销量预测研究[D].北京工业大学,2020.
基金资助:自治区级新工科、新医科、新农科新文科研究与实践项目(XGK202329);
文章来源:廖水梅,李猛,李刚.基于大数据的新能源汽车销量的分析与预测[J].轻工科技,2024,40(06):106-110.
分享:
目前业内对提高气密检测精度已经做了大量研究。宣立明等人[1]对不同产品在使用气密设备时设定不同测试参数,来提升测量精度。魏子云[2]研究了变速箱总成充气时间、检测时间对气密检测精度的影响。杨伟等人[3]针对军用电子设备特点,选用差分式气密检测替代淋雨及浸泡测试,并采用红外热成像技术分析产品的泄漏位置。
2025-08-24电池模组由电芯经串并联方式组合,作为电池系统构成中的一个小型模块。目前纯电动车用的模组为12个电芯2P6S(2并联×6串联)组装而成。其基本组成包括:控制模组(BMS板),电池复合单体,导电联接件,塑料框架,冷盘,冷却管,两端的压板以及紧固件。
2025-07-20汽车产业链上的生产方和销售方都要寻找更加高效的、可以调整的销售渠道以适应这种变化的消费需求,这种渠道的整合与集成管理成为必然选择,传统渠道中各个企业单元之间的信息“孤岛”效应将被打破,结合信息化手段的解决方案将获得最大的资源整合优化效果。
2025-06-29若电池寿命问题得不到妥善解决,将导致两个严重问题:一是用户担忧电池损耗而回避使用超快充电桩,造成设施利用率低下;二是电池过早报废推高全生命周期成本,削弱电动车辆的经济性优势。因此,揭示超快充电对电池寿命的影响机制,并提出针对性优化策略,具有重大的经济价值和现实意义。
2025-05-18车载充电机作为新能源汽车不可或缺的核心部件,集充电机与直流变换器功能于一体。一方面,它将电网输入的交流电转换为适配车辆电池包的电压,实现对电池的充电;另一方面,在车辆高压上电成功后,充当低压电源,把动力电池的高压直流电转换为低压直流电,为低压器件供电并为车载蓄电池充电。
2025-05-18碳达峰、碳中和目标的提出,为汽车行业的发展带来了新的考验。汽车排放标准的不断提高,促使汽车行业加速变革,传统模式已不能满足要求。在此背景下,汽车向混动化、纯电化的发展成为必然趋势,软件定义汽车成为汽车新的架构模式。在这一转型过程中,合理分配电能成为整车能耗优化的关键环节。
2025-05-18电动汽车车载充电电源电路中,功率因数校正电路(PowerFactorCorrection,PFC)是重要组成部分。现有的功率因数校正电路的外接电源多为交流民用电,其功率受限制,最大功率为6.6kW。随着电动汽车产业进入规模化快速发展新阶段,充电基础设施匮乏、充电速度慢等问题日益突出,急需提升车载充电功率及兼容性。
2025-05-18企业想要在竞争激烈的国内外市场拔得头筹,能够精确反映企业经营状况的财务绩效便成了利益相关者的有力工具。新能源汽车企业虽然具有较高的成长性,但也需要较高的研发资金投入,受行业政策影响比较大,因此,以利润为财务绩效考核核心的传统绩效评价已不是最佳选择。
2025-05-13新质生产力的提出重塑着各个行业的生存与发展格局。汽车产业近年来正经历着前所未有的变局。新能源、智能网联、无人驾驶等技术颠覆了人们对传统汽车产品的认知,在营销端对传统汽车厂的营销组合带来了深层次的冲击。对于广大的传统车企来说,如何在营销端积极转型是摆在面前的一个重大问题。
2025-03-19能源安全、环境污染和气候变化被认为是工业革命以来制约世界发展的三大挑战。随着可持续发展理念的提出,相关问题越来越受到人们的关注。新能源汽车具有减少能量损失、缓解环境污染和环保等优势,在全球范围内越来越具吸引力。锂离子电池以其高容量、高效率、循环寿命长等优点,成为新能源汽车动力电池的首选[1~5]。
2025-01-14我要评论
期刊名称:轻工科技
期刊人气:1334
主管单位:广西壮族自治区人民政府国有资产监督管理委员会
主办单位:广西轻工业科学技术研究院
出版地方:广西
专业分类:科技
国际刊号:2095-3518
国内刊号:45-1385/TS
邮发代号:48-123
创刊时间:1984年
发行周期:月刊
期刊开本:大16开
见刊时间:1-3个月
影响因子:0.364
影响因子:1.215
影响因子:0.000
影响因子:0.237
影响因子:0.000
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!