在数据风起云涌若干年后,在大数据喧嚣若干年后,当智能社会的廓影现身于东方晨景时,一切都会回归常识与基础逻辑。数据从服务人类管理活动,到干预并损害人类生活状态,产生了异化。未来只有建立在算法基础上的数据运用才是可持续的。
1
大数据是数据的外延
现在和未来的唯一样本是过去。所有的过去都在数据中。
数据与大数据是不同的概念,但却是同一事物的不同状态的描述。
数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。数据表示的是过去,但数据中包含了大量的信息,通过技术分析,数据所表达的是未来。所以数据是人类生活与社会管理活动中最基本的依据。事实上,数据伴随了人类文明的全部过程,人们对于数据的知识及实际运用能力也越来越强大,并使人类受益良多。
但是所谓大数据概念的出现使事情变得复杂起来。
大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。通俗地说,也就是同时产生的海量数据在技术促进下得到实时运用,就构成了大数据。
技术进步、尤其是互联网和各种新的算法模型使得数据获得了即时采集、即时分析的信息结果。而即时采集的数据不再是人类的工作过程,也包括了人类的生活过程。不仅包括了人类工作的标的,也包括了人类自己,这使得问题复杂起来。但大数据的本质仍然是数据,是新的技术环境下的数据。
2
数据公司商业模式根源
在数据观念下,我们将以往的数据进行有目的结构化统计,尽量延长数据的长度、宽度,充足性和真实性,通过分析,发现规律,总结逻辑,借用算法,建立模型,弄淸从前,预判未来。正视不确定性现实,解决信息不对称问题,推动社会发展。需要明确的是,数据的基本属性是公开、透明、共享,所以数据的商业价值有限,社会价值无限,基于数据的各种算法和逻辑才是数据商业产品的核心竞争力。
大数据观念下,传统数据、社交数据、传感器数据都可以通过互联网采集到。那么这些碎片化的非结构性数据价值如何挖掘出来呢?
首先,结构化的统计数据不构成大数据特征。而传感器数据更多地用于特定领域的智能识别系统运用,虽然也是新技术带来的新数据源,但其商品化运用受到一定限制,而互联网上获得的社交和行为数据由于其海量、实时,得到广泛的应用。当我们谈论大数据时,更多意义上是指这类狭义上的社交、行为数据和某些社会服务层面的数据,如医院的诊治、用药纪录、银行的客户交易纪录、商场的客户交易纪录等等。所谓精准营销,就是通过搜集某人的相关数据进行个性化商品信息推送、药物推荐等,也有数据公司提供各种个人的行为数据供金融机构进行风险分析。
大数据运用的收益主要是通过掌握信息的时间差、地区差,利用特定的数据来源形成或制造信息不对称,占据一定的交易优势而获得较高收益。
数据公司通过网络可以在被采集人不知情的情况下采集到社会成员的身份、身体、特貌、行为、家庭及相关的一切信息,通过算法把相关信息联接起来,生成针对具体人的营销、个性化推送、趋势判断、资产追踪等等。对于掌握了某些场景下解决某类问题的算法的数据公司而言,大数据带来了商机。一方面像头条新闻的个性推送,虽然包含简易算法,让我们觉得服务的而平更贴近每个人;另一方面也因此而毛⻣悚然,因为这样的推送实际上已经忽略了我们自己的意愿和权利,肆意地侵蚀到个人隐私权和独立权益,随意进入了附属于个人的生存空间。当你刚订完机票,就有手机短信推荐接站订车,这让你心里恼火。但的确对有需求的客户来说很是方便,而私人空间则渐被侵入。这种所谓大数据运用的危害性可能会动摇社会基础秩序。
当前条件下,数据产权制度未形成,个人数据权利更没有观念,一些公司把数据洗去个人标识便成为通用数据,每个人一般都不会在海量数据中主张单一的权利。而国家统计部门目前也无力把实时数据纳入公共统计范围,向社会提供数据公共服务,这就形成了一段较长时期的混沌状态,数据公司通过低成本的数据来源获得超额收益,得以生存发展。
可见,大数据之所以蓬勃发展,其经济依据是数据行业的额外收益,这些额外收益主要来自于侵犯社会成员的数据权益,使数据公司通过互联网低成本获得这些数据,然后通过技术和算法优势形成数据服务产品,获得不错的盈利。可以说,数据公司几乎无偿地获得了数据资源,并把它们转化成商品。但算法却是需要真正资本投入才能获得的产品。所以随着数据的大量公共分享,将失去其资源价值,只有那些投入设备和智力掌握了大量社会生活情景下解决问题的逻辑和算法的数据公司才真正具有竞争力。那些仅仅靠查询和数据供应⽽生存的公司是无法持续的。
传感器数据也存在同样的问题。传感器的设置和广泛分布以及分辨技术虽然需要⼤量的投资,但是⽬前一些影像数据分析公司和智能公司的数据来源⼤都从公共传感网络或者企业的传感系统所收集,客观上占用了公共资源。而这些影像资料的使用则更容易直接侵害别个人稳私领域。比较典型的是私自通过酒店或公寓的视频纪录探查个人行踪或进行所谓市场分析。
3
大数据异化
就像工业革命造成的异化一样,大数据也造成了数据的异化。
数据从服务人类管理活动,到干预并损害人类生活状态,产生了异化。
那么这一切是怎么发生的呢?
大数据的实时性制造了市场先机,销售业一哄而上,因为有利可图,传统的规则被悄然融化,但新的规则有待时日。
互联网提供了数据的多样性,对客户的个性化需求定位带来了可能,而这正是传统销售业的短板。但新的以大数据为基础的营销越来越干扰到人们的正常生活方式。
传统数据分析运用需要专业背景,很难广泛推广,而所谓大数据只是数据的低端运用,门槛低,成本低。大数据简单运用社交行为数据由于缺乏逻辑背景,常常并不准确。例如收集小企业或个人支付能力的数据用于风险评估,而许多情况下暂时性的周期性的季节性的现金流萎缩都是企业经营和个人生活中的正常现象,依此评估风险是不准确的。
法律约束不明朗造成滥用。立法与司法制度的完善需要个人信息收集、反馈、设计、测试、广泛应用的时间周期,这个周期成为数据滥用牟取暴利的窗口期。一旦国内采用了类似欧盟《通用数据保护条例》(GDPR,2016年4月通过法案,2018年5月25日正式生效)这样的数据保护,大数据的无序状态将会结束,今后几年内,依靠滥用数据获利的公司无疑会被淘汰。
当数据的运用能带来超额收益时,必然导致滥用,从而导致数据运用所提供的信息服务产生的收益归于一部分人,而大多数人因此而受损。本来服务于人类的数据开启了干扰人类生活秩序的模式,大数据进入数据文明的负面清单。
至此大数据终于走到了数据的反面,成为数据的异化现象。工业革命异化对工人造成的流水线压力随着技术的升级和自动化以及人文环境的改善而逐渐缓和。但大数据时代对人居环境和心理以及权益的威胁更甚于工业革命异化。面对这把粗糙的大锁,理性和规则的复兴才是唯一的钥匙。
4
数据为王到算法为王
可以预见,当数据的公共资源性质逐渐形成,某些数据的稀有性减退,其价值也会递减。
廉价的公共化数据,使得数据稀有性稀释,价值逐渐式微,而作为实现数据价值桥梁的算法却逐渐进化升级,智力投入越大,准入门槛越高,价值凝聚越多。所以算法的市场价值会逐步提升。
算法即逻辑。一套算法是理论归纳与实务判断和智能操作技术的综合产物。一类事物,最优算法理论上是唯一的,所以算法可以说是有限资源。算法是指解题方案的准确而完整的逻辑与技术描述,算法代表着用系统的方法描述解决问题的策略机制和数学模型。也就是说,如果一个算法有缺陷,或不适合于某个问题,执行这个算法将无法解决这个问题。不同的算法可能用不同的时间、空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。在数学模型上表现为多种变量之间复杂逻辑关系的处理。
由于我们生活在有限的时间和空间里,因此所有人都会面临一系列需要选择的特定问题,诸如几年内哪些事必须做、哪些事可以放弃。人们为了买房,到处去看房,尽管你事先制定了标准,但还是要跑很多楼盘,什么时候可以下手或者继续选择?
事实上平衡观念是解决问题的关键,那么这个平衡点在哪里?专家计算的结果是37%。看完这个比例的房子以后就可以下手了,再多看意义不大。这个37%就是某种算法的产物。
算法基于专业逻辑和数学模型。未来只有建立在算法基础上的数据运用才是可持续的。而算法是所有工业智能化的技术与逻辑基础。算法不是源于数据,而是源于数学,源于基础教育,源于专业训练,源于长期积累。相信浮躁的大数据行业自身很难具有这样的原创能力。智能化需要数学家。可以预见,大数据的烟花将随风飘散,算法为王的时代即将来临。 (本文作者介绍:原中信银行行长)
|