随着大数据和云计算的发展,车辆数据的日益增加,对数据存储和处理提出了更高要求,因此通过Hadoop平台处理大数据成为主流,实现智能化、高效率的计算和分析。
1、Hadoop
Hadoop是由JAVA语音编写的开源大数据框架,用于分布式服务器集群上存储任何类型的数据,并处理分析巨大的海量数据和并发任务。其核心部件是HDFS与MapReduce。HDFS是分布式文件系统,引入存放文件元数据信息的服务器Namenode和实际存放数据的服务器Datanode,对数据进行分布式储存和读取。MapReduce是计算框架,MapReduce的核心思想是把计算任务分配给集群内的服务器里执行。通过对计算任务的拆分(Map计算/Reduce计算)再根据任务调度器(JobTracker)对任务进行分布式计算。
2、Hadoop的特点
计算能力强:Hadoop的分布式计算模型可以快速处理
大数据
数据类型多:能够快速存储和处理任何类型的数据。
可靠性高:Hadoop按位存储和处理数据的能力高。
容错性高:Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分发。
扩展性高: Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,只需添加节点扩展系统以处理更多数据。
3、Hadoop在处理定位数据的应用
公交车辆在运营过程中通过定位技术获取车辆信息,后台数据实时获取车辆定位动态信息,车辆定位数据作为班次编制的主要数据依据,完成班次计划编制需要巨大的计算能力,传统的计算模式需要耗费相当长的时间、耗费巨大的物力、财力来完成。因此需要通过Hadoop等分布式处理方式来过滤处理大量的定位数据。
(1)数据预处理
首先读取原始定位数据集对数据进行预处理,通过数据库命令对数据进行排序,将无效数据、不一致的数据、重复数据进行清理。同时当数据记录有多个来源时,需要进行关联性验证,如果在数据分析过程中发现数据之间互相矛盾,需要将关联性的相关数据进行调整或去除,通过对数据的分析检测,从而使得数据保持一致。
数据预处理能够确保数据的准确性、一致性、完整性,为后台数据的统计报表提供可靠准确的数据支撑。
MACH_NO | LNG | LAT | VELOCITY | STATION | RUN_TYPE | TIME |
车载机 | 经度 | 纬度 | 速度 | 站点 | 运行状态 | 定位时间 |
1811371 | 116.92755 | 36.716833 | 24 | 4 | 1 | 2022-02-10 10:39:06 |
1802167 | 117.0654 | 36.659033 | 18 | 22 | 1 | 2022-02-11 08:39:29 |
1741429 | 103.05991 | 36.6864 | 29 | 6 | 1 | 2022-02-10 17:34:17 |
(2)数据算法
整个算法包括数据提交与初始化、任务调度与监控、任务运行环境准备、任务执行和作业完成。首先通过JobClient将数据提交到HDFS上,然后由JobClient进行初始化,TaskTracker准备运行环境并接受执行任务,完成MapReduce作业。算法流程图如下(图片来源网络):
(3)调度应用
以定位数据为依据,使用先进先出调度算法(FIFO)、公平算法和计算能力调度算法综合对数据进行处理。结合线路、营运车辆、发车间隔、停站时间等调度参数,通过初设,移动调整,验证筛查对车辆调度进行多次检索调整,最终对结果进行验证筛选,确定最合理有效的车辆调度计划。
4、结语
济南公交智能调度云系统云存储和云分析的运行需要巨大的计算和存储资源,采用Hadoop等分布式处理方式实时分析海量的定位数据,同时采用MapReduce模型技术用于大规模数据集的并行运算,为公交智慧化、精准化、便捷化、安全化提供重要技术支撑。
参考文献:
[1]贺言君.基于Hadoop集群的作业调度算法的研究
[2]百度百科
还木有评论哦,快来抢沙发吧~