清华汽研院推出大数据自动标注系统 - 厂商要闻 - 智能交通世界网_智慧交通网 ITS114.COM|中国智能交通领先的门户网站
  • 清华汽研院推出大数据自动标注系统

    2019-09-11 10:10:29 来源:清华大学苏州汽车研究院 评论:
    分享到:

    9月5日,清华汽研院开发的大数据自动标注系统安装使用培训第一期正式开班!来自上汽技术中心、上汽商用车技术中心、上海捷能、上汽大众、泛亚技术中心、联合电子、华域股份与华域视觉等企业的15名工程师成为首批“学生”。

    培训详细介绍了软件主要功能、安装流程、手动标注及自动标注要点、数据试用等相关内容,经过现场指导、实时操作与互动交流,15名“同学”基本掌握了软件操作知识。

    针对该软件,上汽集团还与研究院达成了“长期结盟”意向:

    研究院将及时搜集工程师们在后续使用过程中的问题,不断优化软件功能与效用,推出新版本,并长期供上汽集团相关企业工程师免费使用。上汽集团也将通过内部培训,扩大试用范围,为该软件持续优化升级提供最大支持。

    除上汽外,自该项技术成果发布以来,多家整车厂、自动驾驶企业、ADAS公司都前来纷纷咨询,这个“小小的”软件为何能引来行业的广泛关注?它从何而来?又将带来什么样的行业效应?请听小编为你一一道来。

    01什么是大数据?


    广义的大数据是指一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征(定义来源:麦肯锡全球研究所)。

    而在汽车领域,我们主要关注的是与ADAS、自动驾驶密切相关的,通过车端、路端的雷达、摄像头等传感器采集到的交通环境数据,包括驾驶员、车辆、行人、车道线、不同道路类型、交通标示等。据统计,一辆自动驾驶车辆的传感器组每天即可产生10~20 TB的数据。

    image.png

    02为什么需要数据标注?

    数据标注,因人工智能崛起而兴起。

    人工智能(Artificial Intelligence,AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。其研究目的,是使应用这种智能的机器和设备能具备像人类一样的认知、思考和决策能力。

    在目前已有的AI应用中,自动驾驶是其最佳的落地场景。它不仅长期占据着“第一热点”的行业位置,具有极大的市场需求与增长潜力,更是语音、视觉、决策等AI全系技术的最佳实现载体。同时,AI也为自动驾驶的发展注入了新的动力,其算法体系中使用最广泛的深度学习算法十分适合高度复杂场景下的自动驾驶应用,它与增强学习相结合后,能让感知和执行过程紧密结合,让自动驾驶变得“更简单”。

    但是,深度学习算法本身并不是“先知”,它像新生儿一样稚嫩,需要数以百万计有标签的例子来教它们“认知与分辨”。

    比如,你要让它认识“鱼”,得有张鱼的图片,并且标注着了" 鱼 " 这个字,告诉它这是“鱼”,在学习了无数张鱼图片中的特征后,它就建立了一个可以自行识别鱼的认知模型,这时候我们再给它任意一张鱼的图片,它就能认出来这是鱼了。你给它看过的鱼图片越多,它的识别能力就越强,识别范围就越广。

    这些鱼图片就是使用和优化深度学习算法必备的“训练样本”,而从原始数据到训练样本,中间有一个筛选、分类、并“贴上标签”的专业加工过程,即我们所说的“数据标注”。

    在AI的世界里,算法是核心,而标注后的数据是基础支撑。

    03传统标注VS自动标注

    传统标注方法主要是指人工标注,也是目前绝大多数企业采用的方法。

    工作人员根据行业的标准或者客户要求,对相应的数据进行分类、画框、注释、标记,然后将结果数据反馈给客户。人工标注耗时长、成本高、误差大、效率低,根本无法满足未来更大规模的交通数据处理需求,大大限制了数据的使用价值。

    在传统方法下,数据标注甚至被视为人工智能应用的最大障碍。

    image.png

    ImageNet 图像识别数据库的人力与时间成本

    为解决人工标注过程中的种种问题,为自动驾驶的深度学习算法优化提供更多更优质的训练样本,基于AI的自动标注方法研究提上了行业日程。

    自动标注是将待标注的原始数据输入到自动化软件中,利用软件中建立好的识别模型快速实现车辆、行人、车道线等多种目标的自动追踪与检测。工作人员只需要在修正软件中对已识别的数据进行部分修改、确认即可生成“合规数据”,大大降低了工作量,提高了数据处理效率。

    而且,识别完成的数据可以直接作为软件中识别模型的算法训练样本,不断提升识别精度与速度,形成良性循环。

    image.png

    智能汽车领域的AI自动标注流程

    04基于自动标注软件的大数据服务平台

    基于市场需求,清华汽研院在2017年开始启动了对大数据自动标注软件与管理服务平台的研究开发,于2019年初基本完成了前期研发工作。经过近半年的数据验证与服务试行,第一代试用版系统终于在同年8月份成功推出。

    该软件目前在国内属于首创,在国际上也没有公开的商用版本。

    采用AI物体检测、多传感器融合、交互式图像分割等核心技术,该自动标注软件可根据客户需要提供图片、视频等多种形式的数据采集和标注服务。支持点标注、线段标注、分割轮廓标注、二维矩形框标注、三维框标注、三维点云标注和传感器融合标注等常见的数据标注类型。

    image.png

    标注类型

    软件还集成了方便易用的手工修改和标注工具,进一步提高工作效率。

    据统计,软件可将标注的人工工作总量降低80%以上,为ADAS及自动驾驶系统开发提供高质量、低成本的数据支撑。

    与其配套的标注管理服务平台可以在线进行任务分发、管理、验收、修改、存档等全工作流程管理,标注人员端和管理人员端可以实现数据库共享与更好的分工协作。

    image.png

    平台架构

    image.png

    平台界面-首页

    image.png

    平台界面-任务管理

    目前,该软件平台已提供数十万张图像标注服务,使合作客户在最短时间内获得了最优质数据,大大缩短了其产品迭代周期。

    image.png

    image.png

    标注完成的图片展示(白天、夜晚)

    05行业应用前景

    AI技术的不断精进将使数据标注在未来产生更大的需求缺口。分析公司Cognilytica 2019年1月的一份报告显示,2018年第三方数据标注市场规模为1.5亿美元,到2023年将增长逾10亿美元。

    自动标注软件不仅适用于ADAS训练、自动驾驶学习、高精度地图建立等技术研究,加速智能网联、自动驾驶等汽车行业热点技术领域发展进程,同时,也可为交通安防、智慧医疗、工业检测等领域的大数据分析提供有力辅助,可形成涵盖智能汽车、医疗、交通等领域的一体化数据标注服务,具备广阔的行业应用前景。


  • 关键字: 大数据 标注系统
  •    责任编辑:刘艳
  • 关于我们
  • 联系我们
  • 广告赞助