毫无疑问,数据量的飙升是AI产业爆发的原因之一。很快我们可以发现,将数据采集、整理、清洗、标注再输送给AI企业用作模型训练,已经成为了一条运行流畅的产业链。
很长一段时间以来,数据服务都处于一种粗放原始的状态之中,甚至出现了一种“数据农场”的说法:数据服务从业者们从各种公开数据集或移动互联网产品中获取数据,以几乎零门槛的形式聘请大量廉价劳动力进行简单的清洗标注工作,例如勾选出一张照片中哪里是天空哪里是大地。最后再将这些粗糙处理过的数据一股脑地投入神经网络的黑箱之中。
但现如今,我们已经看到这一现状正在发生变化,AI企业对于数据的应用需求逐渐开始分化,以往一味粗放的处理模式已经不能满足他们的需求,也因此搅动了AI数据服务市场,潮水从奔腾到平静,让泥沙沉淀,清流上涌。云测旗下的AI数据服务品牌“云测数据”的出现,就是一个典型案例。
这一次,我们采访了云测数据的总经理贾宇航,听他来谈谈,他眼中的数据服务中场战事。
风起云涌的数据服务战场
如果说数据是AI的养料,那么养料的营养含量,自然也决定了AI的强壮程度。算法模型的精准与否、对不同环境的适应性究竟如何等等能力,几乎都来自于原始数据的累积。
最先发生变化的,是AI产业。清华大学发布的《2018年中国人工智能发展报告》显示,去年中国人工智能产业市场规模达到237亿元,同比增长67%。据预计2019年一年中,中国人工智能行业的增长率高达75%。
产业规模的爆发式增长,意味着竞争将进一步严峻。面对这种竞争,AI企业对于数据的需求必然发生变化。比如,企业正在渴望更精细和定制化的数据。
现实场景的环境永远比实验室中的构想更加复杂,想要提供更落地、更具差异化优势的模型,仅仅依靠基于移动互联网数据,或者基于众包用户数据采集的数据显然是不足够的。只有通过定制化数据采集不断打入细节、打入人无我有的场景,才能不断提升技术价值,在洪流中立足。
又比如,企业正在渴望获取更加专业和垂直的数据。随着AI技术深入到各个细分领域,很多数据标注工作要交由专业人士去做。像是对于医疗影像数据的标注,又比如在工业生产线上对于各种材料的认识。这些都不再像以往那样,召集一群普通人就能完成,相反需要的是行业内专业工作人员进行相关处理。如何满足这些要求,是数据服务企业和AI企业都在思考的问题。
以及企业日益提高的数据安全要求。
除了提出数据隐私等常规数据安全要求以外,有些企业为了突破已有模型的局限,开始配套研制自己的硬件,走向多模态融合的方式;或是像上文所说的,专门采集一些定制化的专业数据。这时这些数据就会成为企业构建自身核心壁垒的发展方向。如此以来,数据安全问题就成了重中之重。
另一方面,对于AI数据服务企业来说也是如此。AI数据服务企业意识到,越来越多的AI企业对数据准确性、安全性和标注效率提出了更多要求,并且AI企业开始倾向于与大公司合作,对数据服务企业进行尽职调查、设立供应商列表等等。这一切都意味着,数据服务企业必须加强技术能力、促进管理正规化才能应对全新的需求。
中场战事的号角已经吹响,这场战争决定着AI数据服务企业的生死存亡,也是它们力争上游的重要机会。
云测数据的应战逻辑
云测数据正是在中场战事中渐入佳境的数据企业代表。移动互联网时代开始,云测从手机APP测试作为切入点进入企业服务领域,为移动互联应用在现实场景中的使用保驾护航;人工智能时代,云测旗下AI数据服务品牌-“云测数据”,正在帮助各大企业获取贴近真实场景的精确数据,助力AI在现实场景中的场景化落地。
对于AI企业来说,自建数据处理团队虽能满足需求,但资金成本和技术门槛都相对较高。而数据行业中常见的众包模式,例如亚马逊众包平台“Amazon Mechanical Turk”,它可以在平台上完成海量的数据,但面对定制化场景的数据,却是有心无力。
而云测数据,正是瞄准了定制化数据市场,打磨了一套属于自己的应战逻辑:
第一, 通过产业链延伸满足企业丰富的业务需求。
云测数据发现,当AI企业对于算法落地性要求越来越高时,就更需要贴近真实场景的数据来满足需求。贾宇航提到,对于现阶段的安防或者金融所需要的人脸识别安全等级,互联网中积累的数据和众包采集的数据不足以支撑其需求,多维且精细化的数据,如各种光照条件下各个角度的人脸数据,才是其良药。面对这类情况,就需要数据企业延伸产业链,承担起定制化数据采集工作。除了安防领域和金融领域,云测数据还会涉及诸如辅助驾驶场景中的驾驶员表情、新零售场景中的人物服装穿搭、智慧生活中的音箱唤醒词、智能工业中的质检巡检等等场景,覆盖了现阶段绝大部分的落地场景。
第二, 注重人员培养,提升标注精准程度。
意识到定制化数据对于AI企业的重要性后,云测数据开始注重对于从业人员素质的培养和提高,不仅自建数据基地,对标注员进行标注技巧的教学培训,也在各个涉足行业进行专业知识积累,以确保标注人员对所从事标注任务的理解。如涉及交规和行车经验的自动驾驶数据标注,云测数据就找来了由驾龄丰富的标注管理人员进行对员工提供定期讲解,而其他行业,也逐渐开始需要“老司机“的介入,去提升数据精度。
第三, 死守安全底线。
最后最重要的,还有安全。首先云测数据的核心价值观是让企业拥有数据,构建企业的核心竞争壁垒,为此数据的安全性是一项核心指标。为了保证人们的数据隐私安全,云测数据不仅在硬件和操作系统上采取了加密措施,封死USB接口、采用内网浏览器端操作标注数据、保证所有参与工作的员工只能操作数据,不能获取数据,且每次标注任务交付数据结果后,都会销毁数据。不仅保护数据隐私,也保证了AI企业的利益。
中场战事改变了什么:AI数据服务产业的下一幕
贾宇航告诉我们,云测数据的发展目标,就是在更多细分领域中,做到领域知识积累更深厚,数据更精准,数据更安全。拥有了这三项应战能力,云测数据就可以在数据服务赛道中精准的抓住变革中的机会。解决AI企业想要依靠独有专业数据提升技术能力,又无力建立数据团队的问题。
我们同样关心的,是中场战事之后,数据服务产业会出现怎样的走向?
在接受采访时,贾宇航向我们提到了一个有趣的事实:目前他们服务的甲方,除了一些科技巨头以外,还有不少传统企业。
这一事实侧面反映出,参与AI的企业越来越多,类型也越来越丰富。其中会有对技术一无所知的小型传统企业,会有扎根于农业、化工等等某一极其细分行业的企业,同时也会有依赖丰富的数据累积对AI技术精益求精的科技巨头。他们对于数据类型的需求也会越来越细化、专业和垂直。在这种趋势之下,数据与算法之间的产业分工会逐渐走向明晰。或许数据企业需要“把手伸得更长”,才能更好的为他们提供服务。
相信在中场战事这一转折点之后,数据服务行业会从单纯的拼劳动力,演变成拼技术、拼专业、拼垂直。对于数据服务产业来说,这也是一个不断洗牌的过程。产业发展行程过半,真正的竞争才刚刚来临。数据服务产业作为AI的“源头”,在历经优胜劣汰之后,也给予AI发展更强大的动力。
|