格灵深瞳：智能交通视频大数据技术和应用

2016-09-05 18:10:38 来源：www.its114.com 评论：人

分享到：

　　7月28日,筹备近4个月的2016中国城市智能交通管理暨科技创新论坛在彩云之南、滇池之畔的春城昆明成功召开。此次论坛吸引了来自全国40余个交警单位的100多位应用单位代表以及全国各地智能交通行业260余人与会。北京格灵深瞳信息技术有限公司运营总监浦辉辉发表主题演讲，主题是《智能交通视频大数据技术和应用》，文章为速记稿，未经演讲者审定。

　　格林深瞳嘉宾：各位领导、各位专家，格林深瞳是一家来自北京的专注于算法技术、视图应用的新科技公司，在行业内还是一个新兵。这两天通过论坛学习到了一些智能交通行业知识，格林深瞳也想借这个机会大概介绍一下在技术方面公司取得的一些小成绩以及在交通管理方面、智能交通应用领域的一些想法。今天演讲的内容包括格灵深瞳介绍；深瞳技术=深度学习+高性能运算；基于深瞳技术的视频大数据产品；视频大数据在交通管理中的应用等。

　　一、关于格灵深瞳

　　格林深瞳的定位是计算机识别和人工智能应用。核心的技术跟刚才大华介绍的可能会有一些类似，都是对人和车的检测、跟踪和识别.应用场景也可以进行不同的划分，比如固定的场景，固定的场景又可以分为监控的视角和车载应用。格林深瞳也有另外一个核心公司，专门做类似于无人驾驶方面的应用，这可能跟车联网有一些关联。目前格林深瞳聚焦的行业还是智能交通、平安城市以及金融安防。

　　格林深瞳的联合创始人和CTO赵勇是谷歌资深图像识别科学家，几年前一个非常爆款的产品叫GoogleGlass，赵勇也是GoogleGlass最初的七个发明者之一，第一个方案实际上就是赵勇提出来的。他一直在谷歌内部做无人驾驶的视频分析向导，也是目前顶尖的视图视觉和优秀影像方面的专家。

　　格林深瞳于2013年成立，并获得真格基金和联创策源天使投资，并获得红杉资本领投的数千万美元A轮融资。目前格林深瞳有几款产品，最早是一个三维图像识别的方案，有无人驾驶系统正在用格林深瞳的这套方案，而且在做一些产品应用，经过了六年的积累发展，为深入学习打下了基础。面向智能交通以及平安城市两大领域，针对人和车做了大量的数据学习和训练以及一些运应用尝试。目前也在一些公安系统，一些交管系统里面得到了比较广泛的应用。格林深瞳最近还有一个新产品，待会儿也介绍一下就是感知型的人眼摄像机。

　　二、深瞳技术=深度学习+高性能运算

　　首先，在格林深瞳的所有技术之中，现在采用比较有特点的就是深度学习。在一些领域，图像、声音、文本和一些分析方面，像人脸识别、车辆具体的行为识别方面，这几年取得了突飞猛进的进展，很多识别率都是呈两位数增长，所以一些应用领域可以去做提高突破。深度学习的原理是基于学习一个人脑神经网络的构架，搭载一个比较深层次的深度神经网络。有一个非常大的特点是这个网络目前采用的都是一些虚拟驱动，以往去识别一个车牌或者车标会采用到很多手工的特征，手工的特征有很多的缺点，就是在一些场景变化的时候，如光影、光线、角度、天气，很多特征就不能重建这样的一些场景。自动学习特征就会去恢复这一点，它会从最底层的像素，然后形成一个边缘、一个局部、一个全局，把整个图像上的信息全部展现出来。用深度学习算法的好处是所有的特征是从数据里面通过网络自动学习的，在此过程中不需要任何的手工输入。

　　这也就是深度学习跟传统识别技术相比，对于一个全局特征的检测和识别，目前都是可以做到一些非常高维度的属性。刚才大华也提到了车辆的一些年款（不同年份，同一个车型会有一些改进），事实上年款之间的差异是非常小的，当把数据做很好的归类标注之后，这些年款的信息通过神经网络非常容易识别。还有一些人员的属性，人员的属性会比车辆更容易一些，一会儿也会介绍一下。

　　这里就包括刚才提到GPU（图形处理器）加速的一个应用，因为深度学习会涉及到非常多的数据运算，运算量非常大。传统的CPU并不具备非常强的计算能力，目前的算法都是GPU架构。采用GPU的架构之后有其优点，例如耗时更短，占用的资源更少。

　　三、基于深瞳技术的视频大数据产品

　　谈一下产品的现状，现在国内有很多的智能交通、平安城市的一些项目已经建成投用了海量的摄像机。据不完全统计，全国公安机关安装的摄像机数量已经在300万台以上。当然，还有大量的民用监控，这可能是千万级别的，现在监控的覆盖度已经非常非常高了。同时，中国安防监控的市场还在一个非常高速的增长。

　　从2004年公安部提出要建平安城市的项目之后，2008年到2013年甚至到现在还有很多建设的项目在投入。往后的建设会倾向更多高清，现在1080P，4K等技术已经得到非常普遍的应用。再往后就是监控联网，2015年九部委明确要求在2020年以后所有重点区域的监控视频端达到100%联网。高清改造、系统联网之后就是视图大数据的一些应用，甚至去管理端去管这些项目。当建成这么庞大的一个数据监控网络之后，就面临一些存储这样一些大的问题，比如平均一万路的高清视频三千吞吐量，这是非常恐怖的一个量。如果摄像机不具备智能监控的一些功能、一些智能的结构化能力，存储设备经过30天、60天、90天的循环之后，重要的线索信息也就被破坏了，以前的视频也不存在了，也不可能去调研一年前、两年前的视频。

　　现在已经建成了非常多的卡口电警，具备一定的前端识别能力，但是它的建设成本较高，相比较现在已经具备高清能力的普通监控设备来说数量还比较少。所以格林深瞳觉得视频结构化这块的市场可能非常大，同时也存在一些痛点，首先怎么去把目前庞大的高清视频监控图像进行结构化的描述和数据重组、智能化的分析，特别是车型车款、人文属性的识别、人脸识别，从里面去抓取最重要的线索信息进行长时间的保存。还有一点是怎么利用利旧。利旧就是说利用后端的服务能力，因为对于联网或者说高清改造，其实在后端也可以发挥很多的作用，在后端就把像前端的图片和视频进行结构化的描述，图片进行二次识别。还有一个就是前端确实也存在一些变数，例如在一个正常的高清监控里面，要看清一张五十米以外的人脸依然是不能实现的，这里面有一些本身前端感知缺少这些信息的问题。所以格灵深瞳目前也是针对于这几点进行投入研发，一个是如何利旧，如何去研发新一代前端的智能设备，如何在后端将海量图片、视频进行结构化的描述。

　　当可以达到联网之后，中心化应用会越来越多。以前的智能分析大多用在事后追溯，如果感知能力做得足够好，未来的这些应用可能用于事中报警、事前预警，真正去规避事件的发生。前端简单的一些智能通过一些计算能力的释放，可以做一些非常高端的产品。

　　目前格林深瞳的的产品线是这样组成的，一个是智能前端的设备，刚才提到的就是三维智能识别，这是一个行为学的识别，是指针对一个场景里面人的轨迹、动作姿态和报警识别，目前格林深瞳主要是在金融安防的领域应用这个产品，在交通领域确实很少提。目前格林深瞳马上要发布的一款产品即人脸摄像机，为了让前端获得更多的信息，在五十米的范围内能捕捉高清的人脸，这是格林深瞳独有的一个专利技术，每秒钟可以拍摄一百个微秒左右，目前在公安、民防的一些项目里面应用。后端结构化是一些车辆的二次识别和识别结构化。

　　大家会发现基于深度学习的检测，（图）左下角的这个检测对于大范围的人流检测是非常准确的，基本上每个人都可以被准确检测。像大场景监控中常用的枪球联动可能用了一些转动侦测的技术，但有一些目标不能被识别。而在这样场景的里面，会输出一个高清的人脸墙，五十米以外的人脸一样可以做一个非常精细化的捕捉，这是格林深瞳独有的一个技术，应该会在今年年末的时候正式发布。这是一个前端设备，所有的检测和人脸的抓拍都会在前端实现。

　　这里延伸出一个应用，目前正在做的就是抓拍五十米以外车的状况。介绍一下格林深瞳的车辆特征识别系统，也是基于车型车款还有标志物进行识别的能力。当然，这里要着重提一下迭代能力，在应用的一些项目中，比如公安的应用里面很多就是车头的场景，而较少有车尾的场景识别需求。我们的客户也遇到一些需求，即近景场景也可以接进来，在这样的场景下是否可以把车尾也进行识别。刚才也介绍了运用深度学习能力，只要数据跟得上，就可以把数据进行比较好的标注和梳理，格林深瞳在两周之内就在原本基于车头场景的二次识别的算法基础上，马上迭代出了一款可同时对车头和车尾进行分析的算法，也就是在一个画面里面可以去分析车头车尾情况。

　　这是格林深瞳实际抓拍的，没有做任何后期的编辑，就是在一个正常近景场景里面，不仅可以去抓一个目标，而且如果大家注意到的话，其实左侧还有一辆从对面行驶来的车。尽可能的在这张图像里面把所有的信息提取出来，车型车款、颜款颜色、车牌全部都可以找得到。同时，格林深瞳也可以识别不标准的场景如倾斜角度45度的视角。这是目前做到的一个识别情况。

　　还有基于深度学习的应用之后，所有的检测识别并不基于一个一定要整个车或者基于车牌的信息，可以把这个车识别。如果大家看右边的车，这是本田思域，人可以大致判断出是思域，但算法可以在获得半车场景的时候，也可以去做一个精准的识别。

　　现在可以做到三千多种车款，十九种车型，这里面比较特色的就是三轮车和二轮车的识别，十二种颜色综合识别率90%，车款的识别率是95%以上。然后标注，这也是实际检测的结果，就是安全带、挂件、年检标。近期正在做对公安场景的检测识别，会做得比目前的要精准很多，我们后面也会发布出来。当然还有其它的功能。

　　做这种标注就像一个人的指纹一样，怎么样给车去打一个指纹，在海量的数据里面去抽取一个特征信息，在后期做一个匹对。目前车辆特征识别的行为里面也带有这个功能，从实战上来讲已经做得非常可用了。基于车标或者年检标的话，在前五的范围之内可以找到，基本上是没有什么大问题。

　　还有一点，刚才大华也提到，就是采用一些前端的技术。那后端的优势在哪呢？因为它不需要对前端做一个改造，在后端就可以大范围对这些图片进行二次识别。目前实际运用过的三台GPU高性能辅器，可以处理2500万张的图片，真正的量是3000万张，每台设备基本上可以每天处理的图片在1000万左右。

　　格林深瞳在应用领域的经验还不是很丰富，在行业里面更多的直接做一些科普服务等，这里就不展开赘述。

　　在这个场景里面基于车的识别之后，会对人进行一个检测、跟踪和识别，然后输出人物属性，比如说年龄、种族、衣服式样和颜色。所有的这些能力都基于数据驱动，只要数据里面具备这样的线索，然后有这样的需求，就可以很快把这样一些基础的属性信息输出作为一个结构化的描述，对每个人进行描述。（视频）这个视频里面，目前已经可以识别出来了。

　　同样的一个地方，就是视频结构化的设备里面也有专门的场景是针对人脸监控的，配合格林深瞳的人脸摄像机，可以在后端对人脸进行一个精确的识别和比对，动态场景。这里面也有跟交通相关的，因为在视频里面也会精确的去识别这个轨迹，包括一些特别的车辆，比如渣土车、危险品车辆、豪华车等。一些车流量的统计、违章、变线、左右转，只要轨迹信息是可以获取的情况下，也会做这样的一些应用。

　　最后提到的就是在车载摄像中也具备检测识别能力，在今年的2月份和英特尔团队共同成立一个子公司叫驭势科技，即一个从事完全自动驾驶技术研发的公司。希望车载新技术可以在智能交通领域发挥更多的作用。

　　感谢各位专家，我的讲解就是这样，谢谢！