唐进君:交通流数据质量控制及其预测研究 - 技术应用 - 智慧交通网 ITS114.COM|中国智能交通领先的门户网站
  • 唐进君:交通流数据质量控制及其预测研究

    2018-01-23 16:00:05 来源:中国智能交通协会 评论:
    分享到:

    11月23日,由中国智能交通协会、国家智能交通产业技术创新战略联盟主办的2017’第十二届中国智能交通年会智能交通青年科技论坛上,中南大学副教授唐进君发表《交通流数据质量控制及其预测研究》的演讲,本文为演讲速记整理,未经演讲者本人审核。

    360桌面截图20180123160049.jpg

    中南大学副教授唐进君

      众所周知,智能交通系统数据的管理是一项复杂的系统工程。智能交通系统数据管理的全部过程包括:数据的需求分析、数据的集成技术、数据的抽样技术、数据的压缩技术、数据的存储技术、分布式动态交通数据分析等等。这些数据管理的开展都是以庞大的数据量为基础的,在收集数据的过程中,由于传输设备故障、路面交通状况的异常等原因而使传来的信息不全或错误。这样的原始数据不仅不能真实反映交通状况,而且也对抽样、集成等数据管理措施的实施,以及这些数据在交通管理和交通规划中的应用造成了影响。因此,为了更好的了解交通现状(例如:探测道路是否阻塞等情况),满足广大数据使用者的需求,数据质量控制势在必行,并要贯穿于数据管的整个过程。
      1.交通流数据的质量控制
      智能交通系统是目前认为解决交通问题非常关键的一个技术。但是其实在很多系统应用过程中,其实往往发现数据在采集的过程中会出现错误或者是问题,以及丢失数据在内的情况。包括前段时间,在做调研的时候发现,深入到交通控制系统里面,发现在信号控制系统里面,很多地磁的传感器数据上传不来的,在传输的过程中有一些问题,没有数据的话,做信号配时,很多模型和方法根本没有用武之地。现在最迫切的要求,从工程角度来讲,怎么样把数据修复过来,或者补齐过来,现在面临这样实际的困境。
      现在的数据质量控制,其实发展了很多年,而且方法也非常成熟。现在主要的一些方法,对于错误数据的辨别,目前主要还是应用阈值法,交通流三参数之间相互关系,交通流平衡理论等方法进行识别, 对于丢失数据的修复,目前采样的模型大多考虑历史数据的变化特征,以此建立模型推测丢失数据。
      因此看到,在目前这样的情况下,最大的一个特点就是,高速公路上面的交通流是有很强的相关性的,上下游的数据和检测器的数据有相关性的,在这样的一个背景下,如果某一个车道的数据丢失了,如果周边的数据是比较完备的,通过周边数据使用相关性,来修复丢失的数据,在这样的背景下提出了这样一个交通流丢失性,特别是交通流三参数关系这样的修复方法。
    对于错误或者异常数据的识别,包括:
    (1)数据的重复出现
    (2)阈值判断
    (3)不合理的逻辑
    (4)不合理的流量占有率比值
    (5)丢失数据
      首先对采集的交通流数据根据以上五个原则对数据质量存在的问题进行判断,然后针对不同的情况,删除掉错误或异常数据,再采取相应的方法对数据进行修复。

     唐进军.jpg

    图1 判断过程

    因此在这样的情况下,需要判断数据中是否存在错误数据和异常数据识,如果存在错误数据或异常数据则要剔除掉,再用一些相应的方法把数据补齐,补充成完整的数据,这样的数据就可以进行直接应用。
      2.基于模糊均值的数据修复方法
      数据修复方法,首先确定交通流在相邻车道断面之间以及上下游断面之间的时空相关特性。
      然后基于模糊C均值的修复方法,并在此基础上,利用遗传算法优化模型中的隶属函数和聚类中心,并通过实测数据验证修复的效果。
    基于模糊C均值的修复方法的步骤:

    53.jpg  (1)

      其中l表示不同属性,假定l表示一周内的不同天,比如l=1,2,3, …,7,n 是数据采集时间内获得的样本数量,xij代表一周内的第j天在第i个采样时刻采集到的交通流量、占有率或速度数据。横值是不同的属性,这里面可以是不同线圈的位置,坐标是不同的时刻,因此从这样的数据存储的方法,存储不同属性的数据。
    步骤1:设定聚类数量K和权重因子m,初始化隶属函数U,通过公式(2)计算初始的聚类中心111.jpg。同时确定个体数量、进化代数、交叉概率以及变异概率;

    54.jpg  (2)

    步骤2:利用公式(3)估算需要修复的数据,然后定义估计值与真实值(此值为根据一定的比率人工删除的数据样本)之间的均方根误差,如公式(4)所示:

    55.jpg  (3)

    56.jpg  (4)

    步骤3:定义适应度如下:

    57.jpg  (5)

    其中,ξ 是一个常数
    步骤4:生成初始个体;
    步骤5:利用公式(5)中定义的适应度评价个体数量,完成基因选择,交叉和变异过程;
    步骤6:确定最优方案,评价进化的收敛条件。如果条件满足则直接运行步骤7,否则,返回步骤5。本项目中的收敛条件设置为是否完成了设置的进化代数;
    步骤7:获得最优的U 和C,通过公式(3)计算待修复数据的估计值 ;
    步骤8:通过公式(4)计算修复误差,同时评价是否满足算法的收敛条件。如果误差小于或等于最小的预设值,则利用优化的模型估算丢失数据。否则,更新参数K 和 m,重新返回步骤5。

    唐进军2.jpg

    图2 计算步骤

    那么在这样的过程中,首先可能要初始化一些函数,来计算一个中心,得到一个初始的121.jpg,通过修复的计算过程,得到XI界,通过某一个元素估计出来的丢失的数据值。在这个地方强调一下,因为数据丢失的话,没有办法知道它的真实值,所以做实验的时候采用的完整值,通过人工的删除,删除一定的比例,删除掉以后,把删除的数据作为验证模型的真实数据。因此,在通过公式,可以计算出来不同的修复方法。
      那么通过修复误差在神经网络一个过程中,通过算法不断去对样本进行选优,以及交叉变异这样的修复过程,确保里面两个关键的参数,历史函数的值以及每个类别相对应的中心。算法的框架,首先将数据采集过来,通过遗传算法来优化U和C。
      在数据的过程中,对数据的修复的效果进行一些对比,比如说采用不同的建模数据,在这些数据里面随机挑选三分之二的数据进行训练,后三分之一参数用于模型的验证。对比了一些常用的一些模型,大体可以看到,基本上在相对这样传统的来讲,有比较好的修复的结果。
      3.考虑分类学习机制的预测方法
      对于修复好的数据,后面如何应用,现在应用最新的一个成果,就是基于分类学习机制的预测方法。交通参数分布呈现多种模式-针对不同模式进行分类学习-更精细化的方法。
      进化模糊神经网络模型(Evolving Fuzzy Neural Network Model:EFNN):能够根据不断更新的数据源自适应得进化其网络结构和改进其各部分功能。
      传统的预测里面,把一堆数据做训练,但是这一堆数据可能是几个星期、几个月的数据,交通流有很多不同的状态,在这个过程中,如果把所有的状态放在一起的话,效果未必好,在训练之前,先把不同的模式分开,不同的分布模式,采用这样的一种方法进行训练,,在这个过程中,发现目前1998年提出来的模型比较适合,进化的神经网络模型这个想法,这个最大的特点就是不断根据新输入的数据调整里面节点的参数,这个模型非常适合,再做了一些工作,整个预测过程分为四个阶段,分别是聚类、非监督学习过程、监督学习过程,采用它的预测的误差来调整整个推理系统中的一些权重和参数。最后得到预测的结果。
      最后的预测解决每一个规则输出的结果的加权。采用的一个加权最小二乘法,这里面最想跟大家强调的是W-样本与其相关聚类中心的距离,是非监督学习里面的效果,W里面每一个因素是权重,权重里面表示样本与其所在聚类中心的距离,当数据不断增加的时候,距离中心在不断调整的,W也是不断调整,这是这个方法的特点。
      在这个过程中,其实提出了一种更新的,或者更改进的一种迭代参数学习的方法,因此在这个地方考虑,就是说能不能把学习分成两块,第一块可能用传统,即用加权的乘法进行优化,第二块是将加权最小二乘法迭代的参数作为一个初始参数,通过一个微调,是不是能够达到比较好的效果,这个也是在这块做的尝试。
      第三块就是说在整个预测过程中,数据有周期性的,为了增加预测稳定性和对长期预测的精度,在这个地方考虑初步的周期性,周期数据可以用一个有限的序列进行表示的,采用两份数据,一天有720多个数据有限的项,可以非常精确的去追随周期的变化的模式。最终构建了组合预测的思想,在这个预测过程中,把交通的参数分为两块,一块就是周期部分,通过用基数去表述和用神经网络去预测,把两个结果迭代在一起,考虑这样的周期变化能否提高它的预测精度。
      通过做了一些实验,采集了北京市的这样一个环线上的一个交通数值。在这个里面有平均绝对误差,平均绝对百分比误差以及均方根误差。第一个,是一个聚类的数量,当类别太小的话会不够,但是太多的时候,可能会饱和,这两个极端不会太好,但是在中间,比如说17-20左右,会好一点。对参数和项数,进行分析,发现当项数增加的过程中,其实最后超过10项之后,整个精度是比较稳定的,因此说,没有必要选择那么多项,可能在10项左右,就会比较好的效果。对样本分类的比例做了一些讨论发现,两个极端的情况下,它的预测效果也不是非常好,因此中间大概选在0.6-0.8的划分比例,对数据进行划分。
      这些有一些具体的一个数据,是通过对比了不同的采样时间,不同的标准的误差评价标准下以及常用的一些,包括统计里面的方法,之后得到的。这是一些基本的一个预测结果,考虑的周期性的变化的结果,因为考虑的周期性,可能对长时间的预测有一个比较好的提升,这个地方也做了一些检验,当预测在增大,这个误差在增加的,误差增长了一个幅度,在对未来进行尝试预测过程中,不会下降那么快,这是一个研究成果。
      4.结论
      整个研究归纳了常用的交通流数据质量控制方法,提出了基于模糊C均值的数据修复方法,针对传统的优化模型参数易于陷入局部最小的缺点,采用遗传算法优化模糊C均值模型中的参数,并且通过实例分析验证了算法的有效性。最后在这样的数据的质量的控制的背景下,考虑交通流参数的不同分布特性,提出了考虑分类学习机制的交通流预测方法,利用进化的模糊神经网络构造模型结构,考虑了数据的周期性变化,提升预测的稳定性。 


  • 关键字: 交通流 数据质量 研究
  •    责任编辑:梁兰春
  • 每周新闻精选

  • 关于我们
  • 联系我们
  • 广告赞助