杨东援大数据系列:站在大数据面前,交通工程师的思考 - 调查与观点 - 智慧交通网 ITS114.COM|中国智能交通领先的门户网站
  • 杨东援大数据系列:站在大数据面前,交通工程师的思考

    2016-03-18 10:28:33 来源:www.its114.com 评论:
    分享到:

      一、交通大数据的研究目的

      大数据概念的火爆,在众多技术领域激起层层波澜。这其中既有试图通过大数据"沙里淘金"的商业分析人员,也有将本领域原有的数据分析冠以"大数据"帽子的不求甚解者。

      在城市交通领域中大数据究竟意味着什么,这是众多研究者和管理者苦苦思考的问题。对于城市交通来说,大数据首先带来一种机遇,使得我们能够通过大样本、多方位、多层次连续观察研究对象;其次将引发一种变革,对复杂适应系统持续监测能力的建立,使得对城市交通进行战略调控的追求逐步得以实现;第三带来一种挑战,大量并不完美的非定制数据提供的是一种间接证据,要求决策分析技术进行必要的变革;第四是一种压力,对于城市产生深远影响的交通决策绝非如同"纸尿布与刮胡刀"一样可以忽视因果规律,需要在智能商务领域大数据分析经验基础上另辟蹊径。

      交通大数据研究的目的在于:将"数据资源"转化成为"决策能力",进而提升"行动效果"。

      为此,首先需要思考的是大数据作为一种资源,为我们带来什么?过去交通分析技术是建立在综合交通大调查数据基础之上,由于能力局限,只能够获取小样本调查对象1天的出行行为,以及相关的宏观统计资料。因此,我们必须有一种基于小样本数据建立分析模型的技术--基于OD的模型体系。大数据首先是大样本,因此可以更加精细地分析不同出行类型的群体时空分布结构,也可以让我们可以更多地对比研究需要关注的案例;大数据其次是具有对研究对象进行追踪的能力,可以回答诸如"个体"经常去哪里这样具有累积特征的问题;大数据的第三个特点在于多角度,不仅可以回答与流量相关的问题,而且可以回答与"构成"有关的问题,例如"主要用于通勤的车辆的时空分布"等。

      其次必须摆脱传统理论的束缚来使用大数据观察研究城市交通。例如,传统网络流分析理论是建立在OD基础之上,其中一个很大原因是在过去的条件下我们只能获得一天的OD。如果利用移动通信数据获得了30天的OD,你又该如何使用?只用其中代表性的一天数据显然是不对的,简单进行平均获取平均OD是否又舍弃了许多有价值的信息?因此我们需要思考如何适应大数据的特点,来调整基础性的理论概念,而不是简单地把大数据塞进传统理论框架。

      第三是必须处理好大数据的特殊问题。由于大数据不像交通调查那样是专门为分析交通问题定制的数据,因而存在许多缺陷。有些缺陷是可以通过后期处理修复的,但是有些缺陷却是无法回避的。为此需要使用一些特殊的技巧,尽可能从中提取有用的信息。

      应用大数据感知交通系统,需要拓展我们对问题的观察角度。世界本是多彩的,为什么一定要用黑白胶卷来记录?世界本是立体的,为什么只能依靠平面图像来表达?对于城市交通来说,对交通流量的关注只是问题的一个方面,或者只是一个维度视角。我们还需要考虑的问题包括对居民生活质量的保障、对空间活力的提升、对居民参与社会活动能力的保障等。在传统理论中,流量分析技术相对成熟,而其他维度视角则基本上交给了"经验"和定性判断。这在客观上起到了造成对策方案评价偏颇问题。这种情况是由于受到原有观察能力的局限所造成。大数据环境下,如果我们的关注力仍然聚集在传统维度,忽视需要扩展的新维度,就成了"新拼装旧酒",不可能发挥战略性资源的作用。

      面对大数据资源认真思考其价值对于把握研究方向是非常重要的。如果大数据只是对交通模型师具有实际意义,则很难对交通分析理论产生重大影响,也难当"第四范式"之期望。

      当我们解决了交通大数据研究的入门问题--对研究对象的"感知",还需要跨过两个门槛--对交通系统的"认知"和对未来的"洞察",才能够建立起交通大数据分析理论的完整体系。

      二、交通工程师不能放弃因果探寻

      交通工程是承担着巨大的社会责任,基础设施建设耗资巨大,有限资源日益短缺,特别是交通系统中的许多演变是不可逆过程。因此,面对大数据交通工程师不能放弃因果探寻。

      大数据展示给我们的往往是一种关联关系,但是关联并不意味着因果。对于这两个概念的区别,可以通过一个"东北人养鸡和猪"的故事加以说明:一天鸡问猪主人干什么去了,当听说主人去买小蘑菇了,鸡赶快要逃跑。猪不解地问鸡问什么要逃,得到的回答是--如果主人去买粉条看你跑不跑。买小蘑菇或者粉条,与杀鸡或者杀猪有一定的关联,但不是必然的因果关系。

      探寻因果的一种途径是通过比较分析,充分利用大数据大样本的特点,通过广泛的比较发现差异,进而探寻因果。

      例如,为了研究城市居民活动空间与建成环境的关系,可以首先根据居民空间活动特征进行组群划分,而后研究相同建成环境下不同类型居民的活动空间差异,以及不同建成环境下相同类型居民活动空间的差异,进一步对比发现内在关联。在此基础上,进一步通过有针对性的小样本专项问卷调查,研究其内在规律。

      这实际上形成了一个宏观与微观、大样本态势分析与小样本机理分析相互嵌套的研究模板。对于想深入研究的读者,也许图1所提供的分析流程会有一点帮助。

      这个框架有三个基本构成部分:探索性研究、宏观态势研究和微观机理研究。探索性研究的任务是正确地提出问题,也就是说必须承认面对新的发展,有许多缺少经验、甚至是缺少基本认识的问题。例如,传统理论将交通方式划分为"公共交通"和"私人交通"两大门类,近来兴起的专车等就是在"互联网+"环境下逐步成长起来的"共享交通",对交通工程师来说是一种全新的未知世界。应用大数据非常重要的是要发现我们所不知道的,而不是仅仅为了验证我们所知道的,因此探索性研究占有重要的地位。宏观态势研究是为了把握全局,根据问题的程度确定是否需要深入分析。例如,伴随城市拓展,部分外围地区出现居民参与社会活动减弱的情况,如果只是个案,并不需要进到探寻内在机理的步骤,只要就事论事地解决问题就可以了。但是如果相反,成为具有一定普遍性的问题,就需要上升到理论研究内在机理,以指导我们的实践。

      图1 宏观态势分析与微观机理分析相结合的嵌套研究框架

      应用大数据研究问题的另一种理解,是为决策提供判断证据。这就带出了一个新问题,由于并非定制数据,大数据所提供的往往是间接证据。如何使用这些间接证据资源,也是一种重要的研究领域。

      三、交通大数据分析的"证据链",

      对于已经具有较深传统理论功底的学者,一提到大数据首先吸引眼球的自然是"数据",将尽管"大"的数据放进"建模"的分析过程,是一种习惯成自然的研究套路。一番兴奋之后却发现这个"大"的数据不那么好用。公交IC卡数据由于只有上车刷卡信息,需要推断用户下车站点。更在推断是否换乘德过程中,两次刷卡之间间隔多长时间属于"换乘",远不像交通调查中的直接回答来的爽快。类似的问题在交通大数据分析中比比皆是,例如移动通信数据中的"单此出行"的判断,移动通信用户是否属于"通勤一族"的判断,车辆牌照数据中相邻两次检测是否属于同一次出行的判断等。在一系列假设基础上,终于将这个"大"的数据融入模型标定的框架之中,但是面对研究结果却充满疑惑:得到的结论如何检验,仍然是一个挥之不去的难题。

      一般来说对于数据驱动的研究工作,将"数据"组织成为"信息",从"信息"中提炼发现"知识",构成完整的分析流程。问题在于不一定非要将"数据"组织成为专门用于支持建模的"信息",而且也不一定非要通过数学模型获取有关规律的"知识"。否则我们会忽视难以精确数字化的重要信息。

      如果我们跳出传统研究的套路,不是把大数据视为需要通过"模型"来说明因果关系的"原材料",而是将其表达为判断者能够理解的"证据",峰回路转又呈现出一片新天地。

      交通大数据分析过程其实是一个"证-析"的过程。所谓"证-析"一方面强调判断和决策中的证据,尤其是数字化的具象证据,以求增加判断与决策的权威性和说服力;另一方面强调通过证据产生洞察,而不是让复杂的数学模型剥夺了我们思考的能力。

      在这一技术路线指导下,两个必须突破的关键技术问题成为有待攻破的"堡垒"--构建"证据视图",以及基于证据形成科学判断的方法。所谓"证据视图"是将一系列通过数据提取特征后形成的图表,按照某种专业逻辑(证据链)组织起来,展现在决策判断者面前的形式。基于证据形成科学判断的方法,其关键在于如何从专家组群关于证据对于假设判断支持程度的意见中,提炼出整体共识。

      "证据视图"与"证据链"的概念具有密切的联系。交通大数据分析之所以强调"证据链",是由于大数据本身非完备特征,使得据此产生的证据是大多属于"间接证据"。由此产生的问题是--如果只有间接证据,能否形成可信的判断?

      一个非常有用的启示来自司法领域,间接证据理论的奠基人,杰里米.边沁(Jeremy Bentham)最早提出间接证据的概念:"在间接证据中,仍存在着一种'特殊的推论',而在直接证据中,从原始命题到结论的推演却相对简单"。

      间接证据不能独立证明命题,需要与其他证据结合,并经过推理才能证明命题。间接证据的应用可以分为三种情况:①在具有直接证据的情况下,间接证据可以对直接证据进行印证,以使得直接证据获得足够的可靠性;②间接证据还需要对直接证据没有证明的事项予以补充证明,以实现对事实的完整证明;③在不具备直接证据的情况下,间接证据如果确实充分,也具有独立证明命题的功能。

      构建"证据视图"就是将各类证据组织起来,形成"证据链"来证明所提出的命题。

      基于证据形成科学判断的方法,则是借助专家组群的智慧,验证技术分析人员关于通过具体证据来证明命题的理解正确与否。也就是说,让专家相对独立地对于证据视图能否有效地证明命题做出判断,并对自己的判断采用某种打分的方式加以形式化,再进一步加以综合产生最终结果。与德尔斐法不同,这样得出的结论有可能包含"目前证据尚不足以说明问题"这样的判断,更加能够体现专家的意见。

      四、不可或缺的洞察力

      洞察力并非自动从大数据中产生。在图1所显示的上海市商业地产价格指数分布中,颜色越是偏冷色调,价格越低。如果不加上以人民广场为圆心,以17Km为半径的圆环,不一定能够注意到宝山新城商业地产的价格远低于环状地区其他部分。

      图1 上海市商业地产价格指数空间分布

      而当我们将图2与图1放在一起时,会进一步认识到北部商业地产价格偏低与集装箱卡车活动强度高具有关联的可能性。

      图2 上海市集装箱卡车交通流量分布

      由此产生了一个新的问题:是数据挖掘激发了我们对港城融合矛盾的洞察力,还是大数据只是验证了已经觉察的问题?我更倾向于后者。因为如果事前缺少认识,我们不会在商业地产地价指数分布图上添加一个环带进行比较,也不会将图1和图2放到一起进行研判。正因为如此,大数据分析不应是一种机械的工作流程,而是需要根据我们对问题的认识不断调整“证据视图”等数据表达。

      有些读者可能提出的一个疑问是洞察力真的那么重要吗?

      城市交通处于一个迅速变化的过程中,面向未来会产生许多新的重要问题。例如,按照上海的空间资源情况,很可能40%的家庭就消耗了城市可能的全部居住类停车资源,那有车家庭与无车家庭参与社会的能力是否会出现大的分化?现在汽车厂商在尽力推进的微型化个人车辆(例如世博会上出现的"叶子")时速在30-40Km/h,如果未来城市中有几十万辆这样的车辆,是否存在道路空间中极大的冲突?诸如此类的问题,是不可能“车到山前必有路”的,缺乏远虑必然导致近忧。所以,我们不仅需要关心预测,更加需要注意预见!

      为了提升洞察力,对于数据的研读者需要形成一种战略思维能力。

      战略思维属于概念性思维范畴,在城市交通领域是指管理者对关系事物全局的、长远的、根本性的重大问题的谋划(分析、综合、判断、预见和决策)的思维过程。对于一个缓慢变化的进程,在一些因素不变假设下得出的各种片断知识或规律,几乎不用修正就可以应用于现实问题。但是对于处于快速城市化和机动化进程中的中国城市交通,基于影响因素不变假设的思维方法开始出现偏差,需要动态地和综合地跟踪多种因素所产生变化的战略思维就显得尤为重要。

      基于大数据提升我们对城市交通演变的洞察力,是一个充满挑战的话题,有待青年学者和学生们去加以攻克。(全文完)

  • 关键字: 交通工程师 大数据 杨东援
  •    责任编辑:its114
  • 每周新闻精选

  • 关于我们
  • 联系我们
  • 广告赞助