数据不是新石油:坐拥海量数据不会让企业成为高科技世界的沙特

本文作者Reza Zadeh是斯坦福大学人工智能的兼职教授,也是一家电脑视觉初创公司Matroid的创始人和首席执行官。

全文如下:

捕获最大数据储量的企业拥有可持续的优势,这将使竞争对手望尘莫及——包括英特尔前首席执行官科再奇(Brian Krzanich)、中国投资大师李开复和硅谷风险投资明星Ann Winblad在内的知名人士都这么认为。毕竟,亚马逊、谷歌母公司Alphabet和Facebook等数据巨头的市值证明了这一点:数据就是新的石油。

在互联网还是一片不毛之地,刚刚开始发展的时候,数据可能相当于石油。但数字商务的发展早就使这种观念过时了。如今,那些相信依靠数据将把竞争对手拒之门外的人,将面临着被淘汰的风险。

如果非要说数据与石油之间有什么相似之处,可能有一点,那就是与其说数据是一种燃料,不如说它是一种润滑剂。人工智能的确依赖于真实世界的照片和测量数据,它需要不时地注入新鲜数据。但这并不意味着齿轮会转得越来越快。要想做到这一点,你需要大修发动机。让这些科技巨头保持领先地位的不是它们丰富的数字信息,而是不停歇的产品开发和改进。

人们普遍认为,英国数据科学家Clive Humby在2006年率先提出数据是信息经济的关键燃料。但这种比喻其实并不恰当。与石油不同,数据不会被用尽;它们会持续存在,并且随着时间的推移会变得更加有用。它们不会枯竭。事实上,它们是无限可再生的。

最重要的是,数据并不稀缺。如今,它们成为了一种商品。

在21世纪初,任何想要积累大规模数据集的人首先都必须购买大量的计算和数据存储设备。不过,就在Humby提出类比的同一年,亚马逊推出了自己的网络服务部门,向所有能上网的人提供“即付即用”的硬件接入服务。如今,初创公司可以在数十种云计算服务中进行选择,每小时只需花费几美分。在这些服务中,他们可以大规模地筛选和处理来自网络的数据。与此同时,研究人员正忙于收集免费的数据集,比如ImageNet的1400万张数码照片,或者语言数据联盟(Linguistic Data Consortium)的6.3万个英语口语句子库。

当然,互联网巨头也有自己的优势,比如庞大的客户数量和按照自己的标准构建的庞大的云网络。但即使他们在数据密集型业务上领先,也无法保持领先地位。

以苹果公司的Siri为例。2011年,第一款消费者级人工智能助手成为工程学上的奇迹,当时它为消费者带来了声控计算。Siri拥有独特的访问权限,可以访问大量用户的语音查询以及他们对其答案的反应。然而,三年后,亚马逊的Alexa一上市就迅速超越了Siri。

Alexa之所以超过Siri,不是因为亚马逊有更多的语音样本,而是因为亚马逊设计了一种非接触式与电脑对话的方式。“嘿,Alexa !”这样就有可能把语音助理部署进扬声器里,和它自由交谈。后来,亚马逊通过向其他公司开放技术,从灯泡到汽车,建立了广泛的配置Alexa产品的生态系统,从而碾压Siri。

那么,从所有这些设备中产生的数据会给亚马逊带来长期优势吗?别指望了。在Alexa问世两年后,谷歌推出了自己的“倾听”(always-listening)助手,它不仅能听懂口头命令,还能根据一个所谓的知识图谱回答问题。根据市场研究公司Strategy Analytics的数据,亚马逊在智能音箱市场的份额最近比一年前下降了三分之一以上,而谷歌的份额几乎翻了一番。

亚马逊在智能音箱市场仍处于领先地位,第二季度的市场份额为42%,而谷歌的市场份额为28%,但是亚马逊的领先地位还能维持多久?

同样的故事一再上演。无人机制造商大疆收集的飞行数据并没有让它免受Skydio的压力,因为后者设计了更好的算法来避开障碍物。Uber关于司机、乘客和路线的海量数据并没有阻挡Lyft扩张的脚步。即便是拥有近三分之一人类照片的Facebook,也不得不收购Instagram,以抵消生存威胁。这并不是什么新鲜事:雅虎在1998年拥有的网络搜索数据比任何机构都多,但后来被当时的新贵谷歌击败。

数据优势是短期的,而且这种短期优势一直在缩短。即使在数据不在网络上流动的专业领域也是如此。Paige.AI独家访问斯隆·凯特琳癌症中心的组织切片库,使其在癌症自动化诊断的竞赛中领先一步。但很快,这项努力将面临来自其他机构的挑战,这些机构设法从其他机构获得幻灯片。然后Paige.AI与互联网巨头和独角兽创业公司一样,将别无选择,只能继续创新。

坐拥大量数据不会让一家公司摇身一变成为高科技世界中的沙特阿拉伯。在一个网络化的世界里,长期的优势来自于保持创新的步伐,它让你紧跟技术潮流,领先于客户需求。