中国工程院院士高文：数字视网膜消除智能交通痛点

2019-12-04 10:53:44 来源：雷锋网评论：人

分享到：

11 月 19 日上午，2019 世界人工智能融合发展大会于山东济南正式召开。大会由工业和信息化部、中国工程院、山东省人民政府指导，由山东省工业和信息化厅、省教育厅、省科技厅、省财政厅、济南市人民政府和新一代人工智能产业技术创新战略联盟共同主办。

在这场大会上，中国工程院院士、新一代人工智能产业技术创新战略联盟理事长高文；中国工程院院士、浪潮集团首席科学家王恩东；英国皇家工程院院士、鲲云科技首席科学家陆永青；富士康工业互联网董事长李军旗等嘉宾出席，并作了主题报告。

中国工程院院士高文

以下是演讲实录：

各位专家、各位同行，各位朋友，大家好！

智能交通之所以被称为“智能”，是因为它可以通过一些技术手段来提高效率；比如，它可以知道哪条路上车多，哪条路上车少。虽然，以前的信号控制系统也做了很多类似工作，但那些系统大部分是通过地面的线圈，或是通过摄像头采集到的信息来进行输入。

今天我要和大家分享的，就是将最现代化的传感器和计算系统合在一起，去把智能交通这件事做好。

首先，我们来了解一下什么叫数字视网膜。实际上，数字视网膜本现在已经形成了大规模的系统，这个系统要如何把视频“看到”的东西很好地协调起来，需要解决三个问题，一个是为什么，一个是怎么做，一个是具体的概念是什么。

从整体来讲，无论是数字视网膜，还是图像处理或视频处理，都经过了漫长的演化路径。举个例子，视频处理技术刚出现的时候，模拟的是照相机，那时大概是在 19 世纪中前期；后来，从伦敦开始，人们慢慢将这些图像以及其传达的内容利用起来；一直到 19 世纪中叶计算机以后，人们开始把模拟图像变成数字图像，进行处理和传输；到了今天，图像处理从卫星图像到医学图像等领域不断发展，甚至覆盖了我们生活的各个方面。

以前人们在这一方面的处理能力不强，但现在，摄像头和传感器的发展越来越好，云计算也出现了。以前的摄像头现在成了摄像机网络，由几千个几万个摄像头联系在一起；原先简单的云存储也变成了现在复杂的城市大脑，一个城市有一个总存储中心和若干个分存储中心。智能交通的决策分析都在总中心进行，而数据则从最末端的每个摄像头传输到分存储中心，再汇总到总中心。

那么，这些数据具体是怎么过来的？以前的模式就是，摄像头把拍到的内容用编码器压缩后传送回来，到了总中心再解压，通过基于手工的系统来提取有用信息，并分析识别。随着人工智能技术越来越成熟，上述手工完成的工作都交给了深度神经网络来做，只要有足够的算力就够了。

但是，这样一个系统，真的能提高效率吗？如果效率不行，又是因为什么原因呢？刚刚说过，摄像头拍到画面后要进行压缩，然后传到总中心解码，再进行特征提取、分析、识别；实际上，这个过程需要一定的时间，很难达到实时的效果。为了解决这个问题，人们不停地升级系统，还加了许多特殊的智能摄像头来直接识别一些特征，不再经过编码的过程，由此来节约时间。

这种解决方案真的好吗？其实不然。因为，这样做确实可以解决一些小问题，但是它带来了更多的大问题。现在的摄像机网络规模很大，所以它收集的数据也非常大，然而，数据大不等于大数据。这些摄像头拍下来的东西，85%—90% 都是监控视频的数据，很难对整个城市的管理和规划改进有帮助；而且，它们存储的时间最长也只有三个月，可能在两个星期的时候就被覆盖了或是废弃了。

这样的超大数据量仅有一个超低的价值密度，我们应该想办法去转换，让它变得更有价值。问题其实出在架构上。按照原来的架构，几乎 99% 的摄像头只是用来拍摄，然后将内容编码，即便它们传输的数据之后发挥了作用，摄像头的贡献也是极小的。所以，我们要想办法让摄像头干更多的活儿，但又不是将其升级为简单的智能摄像头来识别人脸或车牌（原因上文已解释）。

真正有用的方法是，让摄像头将有用的数据抽取出来，传送到云，然后作为一个富有价值的大数据在云里处理并长期保存。这是从生物界受到的启发。

无论人还是动物，我们都有眼睛，并且效率非常高。眼睛获取光学信号是通过视网膜来获取，视网膜里有两种比较关键的细胞，感光细胞和锥状细胞，这两种细胞加起来有 1.26 亿，而我们平时看到的东西，都是通过这些细胞来传到大脑的。不过，在信息往后传的时候，经过了若干层，每传一层信息都会进行缩减，一直传到脑神经的连接地方。

举两个例子，一个正常的孩子在学习的过程，实际是把神经的全连接网络进行了增强和剪裁，有些连接变得越来越粗，有些连接慢慢就萎缩掉，最后他能有效率地辨别事物。相反，一个患有自闭症的孩子末端神经和脑端神经一样粗，而是没有进行过裁剪的全连接，他的注意力很难集中。

这也就说明了信息缩减的重要性，但目前我们的摄像头没有信息缩减这个功能，相当于一个“自闭系统”。所以，我们的系统要像人的视觉系统一样，把信息缩减了再往上送。

为了做这件事，去年我和一个北大的同志，还有一个阿里巴巴的同志，三个人一起在《中国科学》上发了一篇文章名为《数字视网膜智慧城市系统演进的关键环节》的文章。

如果用了所谓的数字视网膜，这件事就可以解决了，数字视网膜有八个最主要的特性，我汇总了三个最本质的特征：

第一个特征叫做全局统一的时空 ID，每个摄像头要有一个全局统一的时空的 ID，地理位置是全局统一；每个摄像头只要是送信息回来，马上就知道这是全局统一几点几分的时间发生的事，发生的物理地点是在哪里。

第二个特征就是视网膜本身要有高效视频编码的能力，高效特征编码的能力和联合优化的能力。高效视频编码方面现在有很多标准，像 AVS 标准，MPEG4 等等；特征编码现在的标准有 MPEG，CDVS 标准，CDVA 标准；如果在一个码流里，同时要监控视频编码和特征编码的话，要想办法让它们可以联合优化。

第三个本质特征就是模型可更新，注意可调节，软件可定义，这也是三个不同的要求。我们现在都是用神经网络模型，随着时间推移可能会有新的算法出来，所以，数字视网膜要是模型可更新的；换句话说，每个摄像头上的算法都是可以升级的。注意可调节，主要是可以后台控制它。同一个画面里的东西，优先级在每个地方都是不一样的，我们可以赋予它一个感兴趣区域的功能，让它有注意一些特别重要的区域，并保留这个区域的信息。

软件可定义，可以通过软件升级来实现软件可定义。这种新的数字视网膜实际有三个流，不像传统的摄像头就是一个流，即一个视频压缩流或一个识别结果流。数字视网膜的三个流包括视频编码流，特征编码流，模型编码流。当然这三个流是有分工的，有的是在前端可以实时控制调节，有的是通过云端反馈出来进行调节和控制的。这就是数字视网膜。实际上，数字视网膜主要是通过脑眼合一的方式，将未来终端的信息，通过数字视网膜的处理，送到云端的。

现在，我们在深圳专门做数字交通，为了做这个事而进行大规模的训练。其中，有一些开源的东西，包括建立开源生态，还有一些势能的技术，里面视频编码标准是一块重要的势能技术。现在，联盟也在做一些基于刚才说的标准装的大的应用标准，这些都在按部就班往前推进。

第一款数字视网膜芯片已经在路上，很快就会发布，这个芯片很小，就像一块钱硬币一样，但却把我刚才说的三个本质特征，八个功能全都包含在里面。将来，这种芯片可能会直接进入各种智能交通的系统里，会支撑数字视网膜的应用。

关键字：智能交通