基于Hadoop的定位数据算法应用-吉翔网

admin 2022-02-23 10:30:52 人围观

随着大数据和云计算的发展，车辆数据的日益增加，对数据存储和处理提出了更高要求，因此通过Hadoop平台处理大数据成为主流，实现智能化、高效率的计算和分析。

1、Hadoop

Hadoop是由JAVA语音编写的开源大数据框架，用于分布式服务器集群上存储任何类型的数据，并处理分析巨大的海量数据和并发任务。其核心部件是HDFS与MapReduce。HDFS是分布式文件系统，引入存放文件元数据信息的服务器Namenode和实际存放数据的服务器Datanode，对数据进行分布式储存和读取。MapReduce是计算框架，MapReduce的核心思想是把计算任务分配给集群内的服务器里执行。通过对计算任务的拆分（Map计算/Reduce计算）再根据任务调度器（JobTracker）对任务进行分布式计算。

2、Hadoop的特点

计算能力强：Hadoop的分布式计算模型可以快速处理

大数据

数据类型多：能够快速存储和处理任何类型的数据。

可靠性高：Hadoop按位存储和处理数据的能力高。

容错性高：Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分发。

扩展性高： Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，只需添加节点扩展系统以处理更多数据。

3、Hadoop在处理定位数据的应用

公交车辆在运营过程中通过定位技术获取车辆信息，后台数据实时获取车辆定位动态信息，车辆定位数据作为班次编制的主要数据依据，完成班次计划编制需要巨大的计算能力，传统的计算模式需要耗费相当长的时间、耗费巨大的物力、财力来完成。因此需要通过Hadoop等分布式处理方式来过滤处理大量的定位数据。

（1）数据预处理

首先读取原始定位数据集对数据进行预处理，通过数据库命令对数据进行排序，将无效数据、不一致的数据、重复数据进行清理。同时当数据记录有多个来源时，需要进行关联性验证，如果在数据分析过程中发现数据之间互相矛盾，需要将关联性的相关数据进行调整或去除，通过对数据的分析检测，从而使得数据保持一致。

数据预处理能够确保数据的准确性、一致性、完整性，为后台数据的统计报表提供可靠准确的数据支撑。

MACH_NO	LNG	LAT	VELOCITY	STATION	RUN_TYPE	TIME
车载机	经度	纬度	速度	站点	运行状态	定位时间
1811371	116.92755	36.716833	24	4	1	2022-02-10 10:39:06
1802167	117.0654	36.659033	18	22	1	2022-02-11 08:39:29
1741429	103.05991	36.6864	29	6	1	2022-02-10 17:34:17

（2）数据算法

整个算法包括数据提交与初始化、任务调度与监控、任务运行环境准备、任务执行和作业完成。首先通过JobClient将数据提交到HDFS上，然后由JobClient进行初始化，TaskTracker准备运行环境并接受执行任务，完成MapReduce作业。算法流程图如下（图片来源网络）：

（3）调度应用

以定位数据为依据，使用先进先出调度算法（FIFO）、公平算法和计算能力调度算法综合对数据进行处理。结合线路、营运车辆、发车间隔、停站时间等调度参数，通过初设，移动调整，验证筛查对车辆调度进行多次检索调整，最终对结果进行验证筛选，确定最合理有效的车辆调度计划。

4、结语

济南公交智能调度云系统云存储和云分析的运行需要巨大的计算和存储资源，采用Hadoop等分布式处理方式实时分析海量的定位数据，同时采用MapReduce模型技术用于大规模数据集的并行运算，为公交智慧化、精准化、便捷化、安全化提供重要技术支撑。

参考文献：

[1]贺言君.基于Hadoop集群的作业调度算法的研究

[2]百度百科

短运精算，详解近期事业、财运、姻缘

近三个月运势

基于arcgis的公交站点500米覆盖率指标计算方法分享

基于arcgis的公交站点500米覆盖率指标计算方法分享在对公交线网进行评价分析时，公交站点500米覆盖率是最常用到的指标之一。以往分析计算这一指标时，大多借助transcad软件，本文将介绍一种基于arcgis软件计算公交站点覆盖率的方法。一、基本定义公交站点500米覆盖率：城市一定区域范围内，所有公共汽电车站点一定半径范围覆盖的区域面积，占适宜设置公共交通站点的区域总面积的比例。覆盖面积为以每一个公共汽电车站点为圆心，500米距离为半径画圆形成的所有圆的面积之和(不包括重叠区域部分)。在《国家公交都市评价指标体系》中，考核区域范围为中心城区建成区。建成区面积可采用最近出版的《中国城市.[详细]

基于车辆运营管理的数据融合技术浅析

基于车辆运营管理的数据融合技术浅析随着信息化技术不断发展，数据融合技术将日趋成熟，从理论研究到实际更广泛的应用，数据融合技术也在公交信息化建设中发挥着重要作用，将公交信息化向智能化、实时化方向发展。1、数据融合技术数据融合技术是指利用大数据、图像识别、人工智能等技术对来自多个传感器或多源的观测信息，进行筛选、自动分析、综合处理，以完成所需的决策和评估任务而进行的信息处理技术。数据融合技术包括对各种信息源给出的有用信息的采集、传输、综合、过滤、相关及合成，以便辅助人们进行态势/环境判定、规划、探测、验证、诊断。2、数据融合原理方法一般情况下，数据融合分为预处理和数.[详细]

基于Hadoop的定位数据算法应用

随着大数据和云计算的发展，车辆数据的日益增加，对数据存储和处理提出了更高要求，因此通过Hadoop平台处理大数据成为主流，实现智能化、高效率的计算和分析。1、HadoopHadoop是由JAVA语音编写的开源大数据框架，用于分布式服务器集群上存储任何类型的数据，并处理分析巨大的海量数据和并发任务。其核心部件是HDFS与MapReduce。HDFS是分布式文件系统，引入存放文件元数据信息的服务器Namenode和实际存放数据的服务器Datanode，对数据进行分布式储存和读取。MapReduce是计算框架，MapReduce的核心思想是把计算任务分配给集群内的服务器里执行。通过对计算任务的拆分（Map计算/Reduce计算）再根据任务调度器（JobTracker.[详细]

十年大运

本文地址： https://www.obaidu.net/articles/81806.html