洪小文:探索数据要素的赋能作用

业界 作者:微软科技 2021-07-12 16:54:06

洪小文

 微软全球资深副总裁
 微软亚太研发集团主席
 微软亚洲研究院院长

十年前,有人戏说,“或许在未来,人们见面可能不是问你有多少资金,而是问你有多少数据;对于一家公司竞争力的评判,或许不仅仅是问技术水平如何,还会问公司有多少数据”。现在,这样的“戏说”成真,人类进入数据经济时代,数据的重要性已毋庸置疑,数据成为与土地、劳动力、资本、技术等一样重要的新型生产要素,正在各个领域发挥着倍增器的作用。在数字经济时代,怎样布局才能把数据变成真正的财富,变成生产力?又怎样做才能避免数据带来的种种挑战?

数据的本质与特性


人类发展的历史,正是一个数据不断产生和积累的过程,某种意义上看数据的规模是与人类文明的发展程度和经济的发达程度成正比的。经济系统甚至可以被看作是数据处理系统,任何实体的价值都取决于其对数据处理的贡献。
那么,数据到底是什么?答案是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它既可以是连续的值,比如声音、图像,称为模拟数据;也可以是离散的,如符号、文字,称为数字数据。
从最开始的堆积石块木棍或摆弄指趾记数,到使用结绳和契刻,再到今天的用激光干涉法捕捉引力波,人类对于数据获取手段越来越丰富,所积累的数据也越来越多。
人们常常会听到这样一种说法,“大数据是数据经济时代的‘石油’”。很长时间以来,石油是社会发展和人类生存不可缺少的能源资源之一。在现代文明社会,如果没有了能源,一切现代物质文明也将随之消失。为什么说记录客观事物的“符号”或“符号组合”如同石油,会影响并赋能各行各业呢?因为在数据经济时代,每个行业、每个领域的发展都无法脱离数据的赋能,数据正在给每一个领域带来巨大的变量。
我们来看罗尔斯·罗伊斯(Rolls Royce)公司的故事。罗尔斯·罗伊斯是著名的英国航空发动机、船舶发动机制造公司,通过传感器可以掌握发动机的任何细微变化,包括振动、压力、温度、速度等,从而可以依靠数据在问题发生前做到维修预警,这种可预防的维修(或叫做精准维修)可以把发动机的故障降低到最低,从而增加航空公司的获利。除了可预防的维修,罗尔斯·罗伊斯公司还可以向航空公司提供全新的数据服务,比如根据航道与发动机状况、天气因素精准计算飞机应该携带的航油量,既保证有足够的油量飞行,又不至于着陆时过高的油量成为危险因素。这些例子都是各行业成功运用大数据在数字化转型中极其成功的案例。
数据的赋能效应,在我们今天的生活当中正越来越多发生,在音乐网站浏览喜欢的音乐,网站不仅仅给出了此刻我想听的,还给出了我心中所念却一时想不起名字的音乐,瞬间有种“被懂得”的惊喜,而“懂你”的那个人是“大数据+数字音乐个性化推荐算法”。又比如,在抗击疫情时,利用大数据与人工智能可以缩短确诊时间并为寻找特效药赢得时间,原来一个医生肉眼研判电子计算机断层扫描(CT)片子可能需要5~15分钟,大数据与人工智能(AI)结合之后,几十秒内就可以准确地对新冠疑似案例 CT 影像做出判读。利用大数据,制药公司能够加速新药的研发,工厂能够改进工艺,提升产品品质,农民能够更好地预防气候和病虫害影响提高农作物的产量,等等,利用数据实现赋能的场景不胜枚举。

而在众多的数据赋能案例的背后,都有着这样一条逻辑线:“符号—数据—信息—知识—决策—行动”(见图1)。首先需要把数据变成知识,形成行业洞见,最后基于洞见来指导决策及行动进行改变,完成价值的实现。其中有几个关键点:一是数据是否足够丰富,是否准确,能否呈现事物的真实状态;二是将数据变成行业洞见需要读得懂数据的“慧眼”等等;三是这个洞察数据的能力是循序渐进的,它的不断成熟来自建立一个“反馈闭环”(见图2)。当下,AI 的发展处于认知层次,包含理解、洞见、推理、计划与决策等能力。至于认知能力的进化动力则主要来自一个反馈闭环。这一闭环依赖于传感器与执行器两大部分,表现为通过传感器,将物理世界的数据传输至系统,系统对相关数据进行分析后,经人机协同(人工智能和人类智慧,简称 AI+HI)制定决策,并反馈给执行器,再由执行器在物理世界实施决策。在这个闭环中,AI+HI 肩负着最重要的分析与决策任务。
罗尔斯·罗伊斯公司为了真实捕捉发动机引擎的状态,在每一个引擎上都加装了数以千计的传感器,从而获取振动、压力、温度、速度等各个维度的数据,才能把引擎上每一个细微的变化都捕捉到;与此同时,罗尔斯·罗伊斯根据多年积累的发动机引擎经验通过“反馈闭环”不断改进其算法,打造了洞悉发动机引擎的“慧眼”,基于此,能够快速从海量数据中识别和判断出引擎的健康状况。
同任何事物都有衡量标准一样,我们通常会用“面积大小”来衡量土地,会用“钱多钱少”来度量资金,而与土地、劳动力、资本、技术其他生产要素不同,数据这种新型生产要素,有它自己的特殊“习性”。比如它不会因为被使用而减少或消失,衡量它的维度,可以用几个“V”来表达,即大量(Volume)、多样(Variety)、高速(Velocity)、价值(Value)、真实性(Veracity)等等。在业界有一句说“没有哪一个数据比‘大量数据’有效”,意思是说再好的数据未必就有海量数据价值更高,强调的就是数据的海量性;也有一句说:“时间越近的数据价值越高”,强调的就是数据的“及时性”。
关于数据的及时性,我们依然以罗尔斯·罗伊斯的飞机发动机引擎数据来谈,要准确判断飞机引擎健康状况,除了要求数据的多样、大量之外,数据的高速(实时性)同样非常关键,如果数据传送延迟,发动机出了问题才后知后觉,我们只能成为“事后诸葛亮”。
依据数据的“习性”和释放价值的方式,我们需要在采集和收集数据的时候,更完整地呈现这些维度。

如何利用数据实现赋能


如何让数据真正赋能各行各业,发挥其新型生产要素的能力呢?
首先需要建立“数据意识”并将“数据要素”嵌入业务流程中。今天,很多机构、企业尽管已经知道数据的重要性,但在真正的业务决策和业务运作中依然是“数据是数据,业务是业务”,收集来的数据并没有进入企业的决策和业务运作流程当中,依然是“桥归桥,路归路”。

事实上,当企业的生产要素发生改变时,需要与之相匹配的业务模式和业务流程。企业进行数字化转型,基于数据进行智慧化运营,需要重构业务流程,构建适合自己的数字化业务模式和业务流程,让数据智能无缝地嵌入业务当中。(见图3)

以山特维克可乐满(Sandvik Coromant)为例,这是一家给制造业提供工程机械和刀具系统的企业,业务遍及全球,为了给客户提供个性化的服务,每当客户遇到问题,这家公司都会派出专家到现场进行帮助并提出进一步的服务建议。但是这样的作业模式、服务方式,意味着需要大量的技术专家,而且技术专家不可能每时每处都在。因此,为了满足客户个性化的服务需求,同时又能够实现企业价值最大化,山特维克可乐满在提供给客户的刀具系统上加装传感器,通过系统将实时收集的数据传输到公司的客户关系管理系统(CRM)中,并同步到呼叫中心,一旦用户的刀具系统出现潜在问题,山特维克可乐满就能够即时通知客户,保证客户业务不中断,实现持续生产,提升了效率。

山特维克可乐满的数字化改造,有一个关键是将刀具、机器与流程结合在一起,完成了数据与业务的无缝嵌入,建立了一个完整的数据利用闭环,实现通过数据来自动化、智能化地为客户提供服务。

不同的行业、不同的企业的业务痛点不同,其利用数据的切入方式与模式也不一样。可以是基于某一小场景建立数据应用的闭环,也可以是生态链上下游实现数据共享,还可以是一个企业的全面数字化转型,基于数据建立新的商业模式。

其次,要不断降低从数据中获得洞见的门槛与成本。无论是收集收据、存储数据还是分析数据,都有一定的技术门槛,也有相应的成本,而这些门槛与成本成为让很多企业止步于利用数据的一个重要原因。

加速数据赋能,需要推动数据获取、存储与分析的成本不断降低,也需要这些技术与工具更为易用,这也是整个信息技术产业发展的动力与目标。Gartner 在定义大数据时这样描述:“大数据是高容量、高速、极具多样性的信息资产,它需要使用低成本、具有创新形式的信息处理方式来获取洞见、制定决策。”这其中提到一个关键,即低成本来获得洞见。事实上不仅仅是 Gartner,互联网数据中心(IDC)在表述大数据时,也给出了类似提法:“新一代技术和架构旨在实现高速采集、挖掘/分析,经济地从海量数据中提取价值。”无论是 IDC 还是 Gartner,他们都认为更低成本和更经济的方式在海量数据中获得价值是新一代新技术发展的方向。

这些年,人工智能、大数据、云计算等技术在这样的目标下快速发展,让数据利用的成本与门槛不断降低。而近来的一些重要趋势,如数据可视化、数据自动化、数据即服务等,呈现出加速发展的态势。随着第五代移动通信(5G)与物联网的加速发展,企业的高速运转,数据也在飞速增长。IDC 预测,到2025年全球将产生200 泽字节(ZB)的数据,这必然要求从数据中获得“慧眼”的工具与技术越来越自动化、更加智能化、更加人性化。Gartner 认为,在2022年,有超过40%的数据科学任务会实现了自动化。

微软公司董事长兼首席执行官萨提亚·纳德拉在谈到微软技术发展的目标时表示,要确保技术强度全民化,赋能全民开发者。云计算和人工智能等技术工具,应该掌握在全世界每一位知识工作者、一线员工、组织和公共部门机构的手中。“农民可以操作一架低成本的无人机在农田上空飞行,收集并传回数据,在农舍中的智能云和智能边缘可以提供即时分析,例如哪里是干旱或病虫害的高发区。在工厂车间的操作人员依靠下一代技术来辨别钻头位置的移动,从而确保精密制造。无论身处何地,医生都可以利用增强现实技术进行虚拟会诊,检查病人身体,共享图像,并即时从数据中获得见解。”

要让技术全民化,需要建立一种架构,使大众可以跨越传统上孤立的群体和地域,广泛访问和使用必要的工具、数据和技术。与此同时,应将数字技能融入教育,让持续学习成为“新常态”。

一是需要将数字思维和数字技能的教育普及化。让数字思维和技能的教育培训覆盖教育的各个阶段,为各个阶段的学生提供相应实用的培训和实习机会,让每一个人在每一个阶段都能够便利和持续地更新与学习数字技能。

二是要重视传统行业的数字技能在职培训。媒体一般都比较关注新创公司带来的颠覆式创新,给社会与经济发展带来的巨大提升,但事实上,传统优势企业凭借累积的行业知识和洞见,其数字化转型对整个实体经济的高质量发展也有着深刻影响。为满足数字化转型的需求,要对在职员工进行培训,通过提高数字技能,发挥他们对行业的专业积累,从而加速企业数字思维的形成,从数据中获得洞见。要达成这样的目标,需要增强员工终身学习的内驱力,建立自信心,同时需要实现数字技术“去神秘化”,推动包括无代码、低代码等便捷工具的逐渐普及,降低掌握数字技能的门槛。

三是要重视国际通用的行业认证。国际通用的行业认证,能够提升全民对于数字技能的重视。要让数字技能的赋能成为“新常态”需要全社会、全产业链都投入其中,形成一种终身学习的文化。

数据利用面临的挑战


随着数据利用在各个领域的不断深入,数据给经济高质量发展和生活的便利带来越来越多的可能性,同时我们看到在数据利用中暴露出一些令人担忧的问题。
第一,数据隐私保护与数据安全。人们常说,在数字时代,我们“无处藏身”,因为路上的摄像头、银行的人脸识别、手机上的应用程序(App)都记录了我们的大部分轨迹。工厂的设备上网、各种物联网(IoT)设备联网,我们在充分享受数据带来的巨大便利和赋能的同时,也存在很多的担忧,用户隐私数据泄露的事件屡禁不止,工厂物联网被黑客攻击。到底如何才能够构筑起更好的用户数据隐私保护和数据安全保护的屏障,同样成为我们利用数据必须关注的重中之重。
目前,世界各国和地区相继出台了相关的保护数据安全与数据隐私的法律法规,比如欧盟出台了《通用数据保护条例》(The General Data Protection Regulation,简称 GDPR),对企业收集、控制和处理个人数据的方式做出了严格规范,如果违反 GDPR,企业将面临高达2000万欧元或全球年营业额4%(两者取其高)的巨额罚款。比如美国出台了相关数据保护法——《加利福尼亚消费者隐私法案》(California Consumer Privacy Act,简称 CCPA),根据规定,罚款金额范围定在100美元~750美元/受影响用户,如果一个拥有100万用户账户的网络服务因违规被罚款,这家公司很可能会倒闭。中国相继出台了《网络安全法》《信息安全技术个人信息安全规范》《个人信息保护法(草案)》(Personal Information Protection Law,简称 PIPL)等一系列法律法规。全球范围内对信息安全和隐私保护的要求达到了新的高度。
当然数据隐私保护和信息安全仅仅是政府采取行动还不够,当前大数据治理体系远未形成,从大数据利用的伦理问题,到规范大数据分析技术经济发展以及应用的标准、流程和方法,到研究更好的保障技术,等等,数据隐私保护与数据安全需要更多的维度、更多的机构与团体参与进来,建立全面系统的大数据治理体系,共同破解种种影响数据安全与隐私保护的难题。
第二,数据寡头与大数据“杀熟”。数据正在成为新型的生产要素,一些科技巨头因为拥有巨大的平台优势,掌握大量数据,有可能成为数据寡头,带来数据垄断。数据垄断比技术垄断更难突破,容易产生所谓的数字鸿沟问题。随着数字经济时代的到来,数字鸿沟正呈现出多样化的特征,既有微观主体视角下个人、企业层面的数字鸿沟,也有宏观地理范围视角下地区、国家层面的数字鸿沟。如何避免数据垄断造成的新数字鸿沟,是我们在数据经济时代必须要思考的问题。数据利用是一把双刃剑,如果我们以“科技向善”的角度出发来利用数据,能够很好地将数据造福于大众,加速经济的高质量发展,如果被利益驱动缺乏底线,则有可能带来巨大危害。从2020年开始,一些用户遭遇大数据“杀熟”的事件被曝光出来:买同样航班的机票苹果手机比安卓手机要贵,同样的位置叫车,安卓手机比苹果手机要便宜,在网上买同样的商品老客户比新客户要贵,等等。在数据给我们带来便利的同时,我们也被一些互联网平台企业运用数据“割韭菜”了。
最近,一些中国的互联网平台企业签署了《平台企业维护公平竞争市场秩序承诺书》向社会承诺,不非法收集、使用消费者个人信息,不利用大数据优势“杀熟”。我们期待越来越多的科技企业加入到“科技向善”的队伍中来,目前在欧美,一些公司已经在公司内部建立的“技术道德委员会”规范技术原则,推动科技向善。
我们积极推动数据开放(Open Data)的理念,通过更开放地共享数据,破解人类面临的重大挑战。目前,数据依然是有边界的,有国界的,这在一定程度上决定着大数据市场的走势,我们相信在保护隐私和保护数据安全的前提下,开放更多的能够开放的非隐私数据至关重要。当下,人类面对大量的难题,包括全球规模的流行病、气候相关的危机、环境的污染、能源枯竭的压力等等,我们需要携起手来,开展跨国大数据合作,建立数据共享机制,在保障数据安全的前提下促进数据的跨境流动。
将不涉及隐私、不涉及安全、不涉及知识产权的数据开放,有助于加速科学研究,加速应对很多重要难题。在抗击新冠疫情的过程中,有很多这样的例子,2020年2月7日,中国国家生物信息中心(CNCB)/国家基因组科学数据中心(NGDC)将其新冠病毒基因组序列实现与美国国家生物信息中心(NCBI)核酸数据库 GenBank 数据同步与共享,该信息库为全球研究人员提供数据服务,为广大科研人员开展对新冠病毒的深入研究与疫情防控提供方便快捷的数据支撑。目前许多国家都将其新冠病毒的基因序列向全球共享,这些基因序列数据能够在很多维度加速抗疫,加速诊治,并为疫苗研究、新药研究,流行病学研究带来巨大益处。比如将新发生的新冠病例基因序列与全球已公开的基因序列进行比对,能够快速确认新发病例的来源。又比如关于疫苗的研发,印第安纳大学通过对轮状病毒基因组进行反向工程,有可能促进儿童疫苗的研发。但目前很多新冠病毒基因序列数据并未能够公开共享,所以最近数百名科学家联名呼吁全面公开共享新冠病毒基因组数据,以帮助分析变异病毒是如何在世界各地传播的,科学家在呼吁中写道,科学界应该“消除限制有效数据共享的障碍”。
另一个这方面的例子是关于全球气候问题,在21世纪,我们面临的最大气候问题是“全球变暖”。要阻止全球变暖,避免气候变化的最坏影响,人类需要停止向大气中排放温室气体,需要电力、制造业、农业、交通等各个产业实现零排放,需要我们重新布局能源的使用,积极推进碳中和。目前全球已经有50多个国家相继宣布在21世纪中叶实现碳中和目标,众多研究机构、团体正在积极推动碳中和技术与路径的研发,瑞士洛桑联邦理工学院的研究员开发建筑物能源模型,希望降低生活的能源消耗;哥本哈根研究机构希望研究新型的智能电表来推动人们节约能源;一项由中外科学家共同研究的项目发现人类排放的气溶胶颗粒对地球有降温作用,可以部分抵消温室气体引起的全球变暖;微软宣布于2030年实现负碳排放,到2050年清除自公司创立以来所有排入大气中的碳。目前,在世界各地从事碳中和相关技术研究的科学家们有一个共同感受,即可用于研究的数据太少,气候影响涉及众多因素,需要众多维度的数据,迫切希望在抑制气候变暖的研究主题下,获得更多可以共享的非隐私、非信息安全数据。作为人工智能领域的研究人员,我们非常希望在科学研究领域能够实现更大范围的数据共享,更快地破解人类面临的诸多重大难题。

本文刊发于《清华金融评论》2021年5月刊

2021年5月5日出刊,编辑:陈婷

推荐阅读

WDF 拥抱多元与包容,“她+科技”点燃别样花火
微软亚洲研究院与华东师范大学签署合作备忘录
未来可期 I 数字化觉醒年代,如何投资未来?

精彩活动

Microsoft Power Platform 在华商用1周年!

关注公众号:拾黑(shiheibook)了解更多

赞助链接:

关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接