基于Transwarp Steam和Discover的实时大数据人流密度估计

2015-07-31 21:15:10 来源：www.its114.com 作者：星环科技评论：人

分享到：

　　引言：随着城市化和现代交通运输的极大发展，在许多大城市都出现了核心区域人流巨大甚至过大的现象，这背后隐藏着极大的管理和安全隐患。老一代监控摄像等人流密度估计方法在速度、精确度上都已落后于需求，利用新技术解决这一难题迫在眉睫，其中使用大数据监控人流已成为热门的新动向。在2015Hadoop技术峰会的Spark专题论坛上，星环科技首席数据工程师程先生介绍了一种全新的人流密度实时估计解决方案，该方案在数据挖掘上使用了新颖的方法，令人耳目一新。

　　随着城市化的发展，城市内的人口流动展现出新特征：人流密度增大，群体活动增多，出行方式越发丰富，人流信息越发多元化。然而，在人潮涌动的背后，往往隐藏着极大的危险——人流过于密集乃至拥堵不仅加大了管理的难度，甚至可能引发踩踏等重大公共安全事故，上海外滩踩踏事故就是一个惨痛的前车之鉴。在人流实时估计和管理方面，当前最为有效、最先进的措施是通过Hadoop大数据实行人群智能感知，实时监测人流密集度。

　　然而，由于人流密度大数据存在着以下四个特性，想要方便快捷地利用大数据估计人流并非易事：数据量大，平均都在PB级以上；具有多样性，结构化和非结构化俱存，且存储在多个部门；数据存在冗余，需要清理出有价值的部分；具有实时性，需要及时快速处理。

　　在2015Hadoop技术峰会的Spark专题论坛上，如何高效地利用大数据技术估计人流密集度也成为一大议题。会上，来自星环科技的程先生介绍了一种全新的人流密度实时估计解决方案，该方案在数据挖掘上使用了新颖的方法，令人耳目一新。

　　这一方案分为数据收集、数据挖掘两个阶段。

　　一、数据收集

　　由于城市内部有地面交通、轨道交通、商业圈等多种需要人流监控的区域，所以要想快速、准确地估计人流密度，不可能仅仅依靠单方面数据进行判断，而应综合利用多方面的数据。

　　据程先生介绍，星环的人流密度估计方案可以收集包括交通卡、手机APP、摄像监控、银行卡、呼叫日志、网络访问日志、社交媒体等在内的多方面数据，并根据不同的区域、场所以及不同的监控目的利用不同的数据源。

　　比如利用地铁闸口的进出刷卡信息、地铁内监控视频统计任意时间维度的出入人流的历史规律信息，利用图计算进行入度的动态监测并计算其最可能的出度路径，进而进行人流动态监测；利用出租车GPS数据进行经纬度信息统计分析，画出出租车的动态轨迹图，还可预测动态运动轨迹.

　　利用交通卡口过车记录统计任意时间维度的出入人流，并进行人流动态监测；利用治安卡口动态统计数据统计人流量，实时上报人流密度。

　　同时，利用城市公共WIFI在线连接和上网内容对人流、商流密集处的人流密度进行统计，在紧急情况下还可以传递公共信息。

利用手机基站数据定位用户的活动密集区域同样是比较高效的方法之一，通过人群密集度算法算出时间、经纬度、人群密度等关键指标，分析出人群迁移和密度变化趋势。

利用POS机刷卡信息分析商圈人群密度，从而得出高峰时间段的密集商圈，使得相关部门可以提前布控密集商圈区域，预判人群移动趋势。

　　最终通过同时利用多个数据源实时统计城市某区域的人流密度。以上海为例，可以利用话务量、基站用户量、上网流量等信息统计人民广场、外滩、南京东路、中山公园等面积较小、人流较大区域的人流密度。

　　二、人流密度估计实现方法

　　接下来程先生重点介绍了如何利用基站数据进行人流密度估计的技术方案。因为未经处理的原始数据需要经过数据清洗、转换、挖掘，才能得到最终有价值的人流密度信息，因此数据挖掘是人流密度估计中最核心、最富有技术性的一环。程先生介绍称，星环人流密度估计方案在基于Transwarp Steam的人流密度估计平台之上进行数据挖掘，主要分为三个步骤：

　　1.利用Kafka获取来源数据，进入消息队列；

　　2.利用Transwarp Stream首先过滤数据，对数据进行清洗；其次进行坐标转换，将数据信息转换为地图上具体坐标的信息；最后进入Discover模块的实时核密度估计函数进行密度估计；

　　3. 将密度估计的结果Transwarp Discover进行实时展现。