云测数据的消逝之道,云测助力行当一败涂地的

2020-04-15 作者:yzc216亚洲城   |   浏览(161)

没有好的数据,人工智能就没有未来。

图片 1

没有好的数据,人工智能就没有未来。

12月13日报道

虽然早在2017年,AI元年的噱头就已经打响,但直到近期,业界才终于承认,各项技术纷纷实现落地的2019年,才是名副其实的AI元年。在互联网成为传统产业的今天,基于各项AI技术实现的无人驾驶、智慧家居、新零售等新概念争先恐后出现,而物流、制造业等传统产业也没有落后于时代潮流,纷纷寻求借助AI进行产业升级,拥抱智能化,而在势不可挡的智能化大潮前,始终藏在幕后构建技术地基、协助技术实现落地支撑的数据标注服务,在其中扮演了关键性的重要角色,是AI行业里真正的隐形关键。

上个世纪五十年代,麦卡锡当时为达特茅斯会议命名了一个在那时看起来别出心裁的名字:人工智能夏季研讨会,由此“人工智能”这个概念开始走向世界。

在过去,数据标注行业很少出现在人们的视野中,但业内却有着相同的共识:没有好的数据,AI就没有未来。

历经了半个多世纪的AI一直都不温不火,但近几年AI突然爆发,在人工智能大量边缘设备落地的同时,将其推上一个更为兴盛的阶段:围棋人工智能程序AlphaGo横扫棋坛,传统与文化相结合独具一格的“AI茶馆”,甚至还有腾讯去年在“AI 医疗”领域打造的“救命AI”——腾讯AI医疗产品的聚合。

这句话并不夸张。目前为止,我们所看到的人工智能,已经跳脱出枯燥单一的计算,转化为以深度神经网络为主的新智能体系,而深度神经网络对于数据有很强的依赖性,所以,凭借对体量庞大的结构化和半结构化数据进行高效率的深度分析,挖掘隐性知识,AI系统才能将海量、复杂、多源的语音、图像和视频数据转化为机器可识别的、具有明确语义的信息,借此进行机器的自主学习。而不够精准却足量的数据,则会让AI的识别学习系统产生混乱和误差。在谷歌发布的CNN报告中,就提到一个严重的问题:自动驾驶车辆的识别系统难以分辨黑色人种和同为灵长类的大猩猩,所以相比白种人、黄种人,黑色人种的辨别率会低10%,如果采用更多的、经过精密标注过的数据,这样的误差可以很大程度的缓解。

AI迅速爆发的背后究竟靠的是什么?现下众多巨头企业、初创公司等纷纷入局人工智能领域,都在尝试寻找全新突破口。业内曾流传着这样一句话:得“数据”者,得“人工智能”,而能将“人工智能”玩的转的,便能称的上是撬动世界第四次工业革命的先锋了。

其实,在自动驾驶领域,精准海量的数据标注,价值不仅仅体现在识别上,在逐渐成为汽车标配的辅助驾驶方面,数据标注也有很强的存在感。在辅助驾驶过程中,有一个关键功能叫做驾驶员疲劳检测,通过视觉识别的方式监测驾驶员的状态,识别是否分神,是否在打电话,是否在打瞌睡,而在辅助驾驶的过程中,驾驶员也极有可能出现注意力不集中的情况。在更细致精密的数据标注介入后,识别系统被赋予了一系列能力,比如疲劳监测系统、危险动作监测系统等,在用户享受便利的同时,能使得公路驾驶更加安全,解决了这样的问题,自动驾驶和辅助驾驶才得以广泛推广和应用。

偏偏是“数据”扼住了AI命运的咽喉?

在高科技产业的实际落地中,数据的重要性有目共睹,而在助力传统产业智能化方面,数据标注也有着广阔的赋能前景。一个非常容易被感知到的变化是,我们在致电银行、通信运营商,或者接到他们的服务电话时,会发现很多坐席人员变成了AI语音助手,能够精准识别天南海北的方言提出的疑问,这要归功于数据标注在方言识别上的突破,使得坐席人员可以从简单的问题中或通知性沟通中解放出来,将精力专注于服务更棘手的特殊问题,不仅提高了话务人员的工作效率,也减轻了机械性人工的投入。

从发展意义来看,人工智能在不断的进步,并且随着这种进步势必会改变一大批产业的形态。此外,从另一方面看,人工智能技术的背后有三大支柱:算法、算力和数据,这三者相辅相成、相互制约,但其中数据是核心要义,只要有了大量优质精准的数据,再加上算法实现高效的机器运算、算力的推动,AI才能越走越远。

不仅是要服务高新技术产业,扶持和赋能传统产业的智能化升级,也是我们的使命,通过高纯净度的数据标注服务,无论是高科技产业,还是传统产业,都能获得智慧升级的机会。Testin云测旗下AI数据服务(数据标注采集)品牌云测数据总经理贾宇航这样说道。

“没有好的数据,人工智能将没有未来”已经成为业界共识。

创新和技术改造传统数据标注虽然不如科技公司光鲜亮丽赚足眼球,数据标注行业一直巧居幕后默默无闻。根据2018年智研发布的《2019-2025年中国数据标注与审核行业市场专项分析研究及投资前景预测报告》显示,近几年,数据标注与审核行业快速发展,2018年市场规模已达到52.55亿元,而在这样的增量市场中,大批看到了企业需求的从业者疯狂涌入,使得整个行业出现良莠不齐的情况,数据粗放、混乱、复用的情况屡见不鲜,在贾宇航看来,这样的数据导入到机器学习中,结果是得不偿失的。

值得一提的是,这里有两个重要的点需要区分:一个是数据,另一个是好的数据:“高质、精准、安全”。

AI发展和数据标注产业是一个鸡生蛋,蛋生鸡的逻辑,如果数据不够纯净,就像人吃了坏掉的食物,只会产生病状,不能起到吸收利用的作用。用到机器学习中,就会破坏AI的数据学习体系,产生大的误差,而误差产生后,后续的自主学习又会产生偏离,形成恶性循环。

云测数据贾宇航表示:“首先数据是人工智能底层逻辑中不可或缺的支撑要素,因为人工智能的本质就像人类要不断的通过训练来获取技能一样,AI的根基就是训练,需要经过大量数据进行训练,神经网络才能总结出规律,进而熟能生巧的应用到新样本上”。

面对这样的问题,云测数据做出了一系列的应对措施。

也就是说,数据是最基本的燃料,没有燃料,AI这艘火箭是不可能直冲云霄,而商业落地更是遥不可及的梦。从自动驾驶到AI聊天、服务机器人,从人脸识别到各类AI边缘落地化产品,数据是真正的“幕后英雄”,无“数据”不“AI”。

为了满足不同场景的特殊需求,云测数据搭建了自己的场景实验室,为各种细分场景模拟无噪的专属数据。在数据标注行业,特定场景的数据在普通的场景下始终是可遇不可求的,比如马路上的摔倒场景,如果真的调取某一个特定道路摄像头的资料,符合路人摔倒要求的画面也许在1000分钟里都难以捕捉到一次,更不能满足各种角度、各个时段、不同年龄、着装、性别的学习要求。面对这种指向明确的需求,云测数据会搭建特定的场景棚,邀请各种演员,模拟不同的形态进行采集;为了采集不同的情绪在面部五官上的表现,云测数据甚至还在横店建立了一个数据场景实验室,专门邀请横店具有面部表情表现力的群众演员,为企业录制精准的情绪,以满足需要识别情绪的场景。

其次,要想经算法训练后获得的模型更加智能,仅“数据”远远不够的,这背后更多的是对数据的“高质、精准、安全”的要求。

完成数据收集后,标注的过程依然存在挑战。在更多的数据标注企业中,依然在沿用传统的标注工具,小米加步枪式地进行数据标注,而云测数据团队研发的标注平台,率先实现了全品类支持,同时满足AI数据的三个维度:图像、文本和音频。在实际生产使用的过程中,针对一些特殊的标注,例如自动驾驶中的3D模型,由于文件大、渲染速度慢,导致标注效率很低,而这套自研的标注工具中包含的渲染引擎,就能保证整个过程的流畅和快捷。凭借这样工程化的研发改造,在面对客户的定制化的需求时,云测数据保证了自身的能力触达和及时响应,从而提高了服务能力和效率。在保证准确性的同时,降低了人为因素可能导致的误差,确保了降本提效。

例如在训练的过程中,高质精准的数据扮演着“教科书”级别的重要角色。如果仅需要识别勺子,但在训练数据中勺子总和碗、筷子一起出现,那么AI系统可能会误入歧途,进入一种“瞎猜”的状态而产生混乱和误差,结果很可能会将碗或筷子识别成勺子。所以对于人工智能来说,虽然大量的训练数据固然很重要,但更重要的是数据的“高质精准”。

在数据标注行业,复制一份数据是非常简单的,也能节省大量的人力成本,在业内成了大家心知肚明的潜规则。作为头部选手的云测数据,核心的原则,就是保证数据隐私性和安全性,而首先要做到的,是数据绝不复用。出于强烈的自我规范意识,云测数据对客户定制的数据交付后不留底,全部清删;第二就是保证数据隐私性。与所有数据采集的用户都签订数据授权协议,包括欧盟GDPR协议也做支持,确保AI企业用于训练的数据合法合规;第三,建立相关的数据保障机制,如从防火墙的设置、内部信息系统的管护、各个终端也做了不联网、USB接口封死等管理,从源头上保证了客户的数据安全。

再从另一方面看“高质精准的数据”对算法模型来讲究竟有多重要?

从整体看来,AI数据行业关于安全、隐私等方面并没有统一的标准和强调重视。但从我们长远角度出发,一直在隐私和安全防护角度下大力气服务行业、树立数据质量标杆,只有以这种负责的态度来服务客户,我们的行业才能良币驱除劣币,真正让人工智能成为新一轮技术革命,改变整个社会和人类进程。Testin云测CMO张鹏飞说道。

现在人工智能处在产业落地前夕,可以说AI产品的精准数据训练直接影响落地产品的良品率;举个不恰当的例子,如果自动驾驶系统的训练数据的缺乏或不精准,则很可能在行驶过程中由于未正确识别物体数据直接导致人身伤亡,这些后果都是不堪设想的。

告别血汗工厂,培新 晋升让人工更智能即便运用了各种技术手段,增加标注行业的技术含量和安全性,但由于行业过于低调,外界对这个行业依然存在误解,认为数据标注是AI产业的富士康,与AI去人工化的本质相违背。事实上,在云测数据的各个标注基地,近千人的标注团队并非人们固有印象中的血汗工厂。云测数据十分注重对标注人员的专业性培训,也致力于用自研的标注工具这样的技术手段,减轻人在数据标注中的重复劳动力。

此外,数据标注的价值不仅体现在物体识别上。当下人工智能整个行业都在往多模态的方向发展,比如以智能驾驶为例,基于传统的车外环境感知系统一般都采用摄像头做设计,以至于存在着测距效果差等缺陷,现在引入激光雷达后,在数据的提升上对应是既有图像又有3D点云的三维数据的耦合。

从技术层面来说,云测数据自研的数据标注平台会根据实际使用中的反馈,以每周甚至更快的频率进行更新,以契合标注平台更人性化的使用。基于云测数据在过去的几年里进行的海量技术更新,并结合更多的落地场景,数据标注工作的技术含量也在不断提升。

随着人工智能逐渐从学术走向产品化、落地化、市场化,企业对于场景数据的要求也越来越多维,所以引入更多维度的数据去完善AI产品落地前的模型,也是当下行业发展的趋势。

从管理角度来看,过去数据标注业经常会面对血汗工厂的误解,有暗无天日、机械重复的固有印象。但实际上,云测数据的标注基地采取八小时工作制,也会提供用餐补助,让员工吃上安全丰盛的工作餐。此外,标注人员在云测数据也会享受到完善的晋升机制,从标注员到审核人员、项目助理、项目经理,云测数据提供了一条明确的职业上升路线,致力于协助标注人员进行职业规划和职业发展。至于近千人的用工规模,贾宇航认为,这和AI的本质也并不违背:

直击行业痛点,这样的“数据一把手”才更性感

AI就是要去人工化,这句话太片面,它其实也在创造更多的就业岗位。就像工业革命到来以后,很多手工作坊消失了,但我们也看到,更多的人工投入到了工业革命所创造出的其他行业中,AI的出现,同样也是扩大了人类的生产力。我相信其实人工智能的确会替代很多重复性劳动,但我不认为人的工作会变少,数据标注只是像工业革命一样,创造了更多的就业机会,同时也在推动行业的技术升级。

传统的数据清洗标注工作呈现出一种“数据粗放型处理”的状况,从移动互联中大量获取公开、通用的数据,通过雇佣廉价的劳动力完成数据的清晰标注工作,“道路、天空、大树”大致标注粗糙勾选后,便全部投入应用到神经网络中。

在云测数据看来,将技术升级引进数据标注的过程,不仅仅是在解放重复生产力,对行业的推动也是巨大的,在云测数据内部,有着一横一纵的说法,一横,指的是有越来越多的行业会引入人工智能,而云测数据将在驾驶、家居、零售、金融和智慧城市等更多领域持续发力;一纵,指的是深挖行业趋势,结合领域相关的知识,提高AI数据精度、效率。

但随着人工智能发展至商业落地前夕,算法模型对高质量、高精度数据的需求极速提升,以往的通用数据集越来越不能满足AI企业的数据需要,人工智能落地越来越专注于小场景和专业领域。人工智能不再是漂浮在“空中的楼阁”,基于AI实际应用场景的数据服务,已成为人工智能落地的核心地基。

在未来,云测数据希望沿着人工智能的发展动线,通过AI数据服务的支撑,推动不同产业积极拥抱智能化,助力各行各业的发展。而在这样的趋势中,紧密链接产业链上下游的云测数据已经做好了准备,在潜在的爆发机会中,云测数据蓄势待发,为一场行业变革积累着可观的势能。

贾宇航表示:“在这个行业中有一个‘garbage in garbage out’的理论,即如果标注完的数据精度达不到标准,那么训练出来的算法也是不精准的。”如今一味粗放的处理模式既不能满足逐渐商用的AI企业的数据需求,甚至还将影响技术本身的发展。

责任编辑:刘沙

面对这样的产业趋势,云测数据作为行业的典型代表,直击行业痛点:将“精准高质”“独立安全”作为业务发展的核心,并随着AI企业数据需求不断的演进。

有刚性需求便会有实时供给,有痛点问题便就有解决方案。云测数据基于其自建的数据标注基地和场景实验室,根据AI企业数据需求,进行特定动作、表情和表情的捕捉,将精准的数据投入到流程化规范生产的数据标注环节中,最终输出精准高质的数据。解决特定场景化下的数据缺失、质量良莠不齐、安全性等行业问题,以帮助AI企业打造以高精度数据为核心的行业壁垒。

场景实验室是云测数据布局高度定制化、多模态的AI数据服务的重要组成部分,以AI企业的具体算法模型的特定需求来定制化搭建采集场景,致力于覆盖尽可能多的实际场景及边际场景,从数据产生的源头把控数据质量。

自建标注基地是云测数据保证数据精准高质的又一强力保证。基地内的全职标注人员有利于协同化管理和快速响应企业数据需求。同时云测数据还基于不同场景对标注人员进行领域内的细分,接受固定领域的知识培训。得到高效的行业知识输入,在理解企业客户的需求上就能做到准确无误的输出。

所以,AI的背后是数据,行业的幕后是云测数据——这样的“行业数据一把手”才着实性感。

数据安全成核心,行业规范亟需建立

目前云测数据基于自建的数据场景实验室和数据标注基地,服务领域已涉及智能驾驶、智能家居、智慧城市、智慧金融、新零售等领域,实时为领域内各个AI企业提供定制化的数据采集、数据标注服务,全方位支持文本、语音、图像、视频等各类型数据的处理。

更重要的一条前置底线是,云测数据除了提供优质数据,更是把数据隐私安全做到了极致。从防火墙的设置、到内部信息系统的管护,乃至标准化的流程作业体系等,将一整套的安全防护和信息保护的机制,应用在数据标注生产的各环节。

贾宇航告诉猎云网:“对于一个企业来讲,拥有了数据便就拥有了核心竞争力,数据安全一直都是我们极其重视的一点。首先我们要做到的,是数据绝不复用,第二就是保证数据隐私性。与所有数据采集的用户都签订数据授权协议,确保AI企业用于训练的数据合法合规。”

Testin云测CMO张鹏飞也强调“从整体看来,AI数据行业关于安全、隐私等方面并没有统一的标准和强调重视。但从我们长远角度出发,一直在隐私和安全防护角度下大力气服务行业、树立数据质量标杆,只有以这种负责的态度来服务客户,我们的行业才能‘良币驱除劣币’,真正让人工智能成为新一轮技术革命,改变整个社会和人类进程”。

人工智能的发展离不开数据的支撑,更离不开AI数据做“燃料”。如果非要用一句话来定义这个时代的“人工智能”和“数据”的关系,可以说是:数据是人工智能的核心要义,而“高质精准、独立安全”的数据,则是撬动世界第四次工业革命的关键所在。

本文由yzc216亚洲城发布于yzc216亚洲城,转载请注明出处:云测数据的消逝之道,云测助力行当一败涂地的

关键词: yzc216亚洲城