您现在的位置: 晨光科技 >> 文章 >> 技术理论 >> IT >> 正文  
  维克托•迈尔•舍恩伯格:数据和存储、计算一样,已经成为基础设施         
维克托•迈尔•舍恩伯格:数据和存储、计算一样,已经成为基础设施
[ 作者:维克托•迈尔-舍恩伯格    转贴自:http://labs.chinamobile.com/mblog/52251_197468    点击数:102    更新时间:2013/4/14    文章录入:admin ]
[注:本站登载的某些文章并不代表本站支持或反对其观点或肯定其真实性]
维克托•迈尔•舍恩伯格:数据和存储、计算一样,已经成为基础设施
标签: 大数据 2013-03-22 11:01
暨去年12月12日参加2012云世界大会并做精彩演讲后,时隔3个月,牛津大学教授、《大数据时代》作者维克托·迈尔·舍恩伯格应中云网和湛庐文化邀请再度来华,并出席了在中关村云基地所在地,中关村软件园举办的《大数据大影响——对话大数据2013论坛》,面向到场的200多位政府部门、企业、投资机构和科研院校领导和专家,做了题为《大数据时代,生活工作与思维的大变革》的主题演讲。下面是维克托教授的演讲全文:
1、从数据贫乏步入数据充分的年代
在过去的人类的历史上,人类始终是面临着数据缺乏的问题。所以在过去,对于一些问题的解释,我们可能不是通过数据来解释,而是想出一个比较复杂的理论。在2000、3000年前,这个世界上有很多哲学家,这些哲学家每天的工作是思考而不是衡量我们的世界。在科学大革命之后,我们开始发现,我们有越来越多的数据来衡量这个世界,是一个非常重要的目标,同时呢,也是一个困难的目标。
到了19世纪初的时候,也就是西方世界的科学大革命期间,当时的科学家都是在使用非常有限的数据来获得一些洞见。这个过程改变了我们社会的很多运行和操作的过程。同时,也深深的嵌入了社会的结构,以及很多机构运行的方式。我相信你们见过这样的专家,他们坐在那边说:“我相信根据我的经验,这就是事实”。但是,这些专家可能手里并没有数据。
很多人会认为,专家的观点或者一种直觉,是比数据更重要的。实际上,我认为这是一个危险的观念。我想举一个例子告诉大家,现实生活中,我们对于数据的利用是非常地差。有一个哈佛大学的教授。这位教授叫(Johnny ctrer,音),他也是互联网监管方面的一个专家。大概两年前,他得了非常严重的肝病。他就求助于哈佛医学院的两个最著名的肝病学的专家。其中一个专家说,根据我的经验,这种病最好的治疗方式是做手术来切除一半的肝脏。但是另外一位专家说,根据我的经验,我认为这种情况最好的治疗方式是不做手术而是等待。Johnny 就问了这两个医生一个问题,你们有多少数据能够证实你们的结论。他们都说,我们实际上是有几十年的工作经验了。Johnny 坚持说,请让我看一下数据,像我这样的病例,之前你们见过几例,几百例还是几千例?就这些病例,有多少是你们一直在做跟踪调查,了解到长期的结果是怎样的?结果是,这两个医生都不知道,他们也说不清。
因此Johnny 想到了互联网上,他在网上贴出了自己的病例,并且向大家征求意见,在这方面有什么此前的经验。结果在24小时之内,他收到了一封邮件,邮件告诉他,在韩国的一个医学期刊上发表了一篇文章,文章上的病例跟他非常相似,建议他看一下。他读了这篇文章,文章上的病例看起来和他非常相似,当时医生的建议是做手术,而且做手术之后,跟踪调查发现,病人确实有了很大的好转。Johnny 就把这篇文章交给了之前他咨询的两位医生,问他们有什么意见。之前建议他做手术的医生很高兴的说,你看,这就是一个证据,证明你应该做手术。另外一个专家说,这只是一个单独的病例,单独的病例不能说明问题,你还是不能做手术。
我为什么要告诉大家这个故事?我们可以看到,当今我们做出关于生与死的决定的时候,实际上我们所能基于的数据是非常少的。很多时候我们都是根据直觉来做出判断,而直觉很可能是根据我们以前的工作经验,但是很多都没有直观的事实或者数据来做基础的。
在大数据时代,我们不再受到信息缺乏的限制。我们现在已经到达了信息充分的年代。我们可以看到,在未来的五到十年,如果你或者是你的孩子去医院看病的话,你不会满足于给你一个诊断,并且没有给你提供数据方面的支持。你会要求给我数据方面的实证,让我来确认你的诊断是正确的。在未来,我相信我们绝对是数据驱动型的。
2、信息爆炸年代的数据特征
我们从医学界转回到科学界,并且转到商业界来讲一讲大数据的应用。 当我谈到数据充分或者数据过量的趋势,我们首先来看一下科学界的变化。在2003年的时候,人类开始使用斯皮策太空望远镜,在头几个星期所收集到的数据,就比之前人类整个历史上所收集到的天文数据都要多。尽管斯皮策太空望远镜可以收集非常多的数据,我告诉你们,在2016年,我们会有新一代的天文望远镜投入使用,预计它在头五天收集到的数据,就会跟斯洛姆望远镜在过去16年收集到的数据一样多。
我们现在面临的是信息爆炸的时代,我们可以看一下信息爆炸是一个什么样的图形。幻灯片上浅粉色的数据是我们现在世界上存储的模拟数据,深粉色的是数据性数据。我们是从1987年开始统计的。你们可以看到,我们的模拟数据一直增长到折线的地方。而从折线开始,我们的数字型数据有一个爆炸性的增长,一直到2007年。所以我们可以看到,在过去的10到15年时间里,我们全世界的数据信息量有一个爆炸性的增长。另外,在数据增长方面有一个变化,从模拟数据变为数字数据。25年前,只是有20%的是数字数据,但是到了现在,95%的数据都是数字数据。为什么这一点很重要,因为数据型数据跟模拟数据比起来可以更容易的被我们的电脑来处理。这个数字是我们现在所有的世界上的数据量,这个量是非常大,也很难去衡量,大家看一下,感觉一下。
我们已经从数据缺乏的时代进入到了数据充分的时代,也就是给我们的大数据时代提供了机遇。在我书里提到我,大数据时代有更多的数据,更混乱的数据,以及他们之间的相关性,如果大家已经读过这本书的话,我简单回顾一下。
第一个特征数据更多。更多是指针对某一个问题或者某一个现象,我们手里有更多的数据。不管我们手里有几百个数据,几千个数据,几亿个数据。最重要的是,我们要分析一个现象,如果这个现象需要6万个数据点的话,我们有这么多数据点,说明我们可以进行大数据分析了。
第二个问题是数据混乱。我们有大量的数据之后,可能有时候不会那么去追求准确性。事实上,我们并没有放弃对准确性的追求,但是我们不会把我们所有的精力贡献给准确性,我们在微观层面,不一定要追求十足的准确性,但是在宏观层面,可以获得一个准确的结论。
3、从追求因果性到相关性的转变
信息爆炸的数据特征也带领我们到了一个新的话题,这也是一个新的改变,从因果性到相关性的转变。在过去我们问的更多的是“为什么”,现在我们要更多的问“是什么”。对人类来说,这其实是一个很大的挑战。可以说,人的惯性思维就是要问因果关系。人会觉得有了因,有了果,这样大家才觉得这个世界可以理解的,并且让大家觉得舒适的。
事实上,我本人也经常也会落入因果关系的陷阱。比如头一天去一家新开张的饭馆吃了一顿饭,第二天觉得胃不舒服,会自然的联想到,可能是昨天那家饭馆的饭有问题。实际上不一定,也很有可能是跟一个手上有胃病细菌的人握了手传染了。
所以我们经常要问自己,我们是不是去研究事情的因果关系,有时候是一种误导性的?事实上,我们很多的医学药品,我们并不知道是什么原因,使这个药品产生了效用。我们只知道一般大家感冒的时候,会吃一片阿司匹林之后觉得舒服一些。但这并不是因果关系,而更多是相关性。当我谈到相关性的时候,并不是一个新的概念。统计学家也在使用相关性来研究数据。但之前相关性只限制在统计学家的狭窄的范畴里面,现在我们想扩大到整个世界。
举一个早产儿的例子。有一个医生,他能够通过数据的研究,提前知道早产儿可能会被感染,并提前对早产儿做出治疗。大概在六七个月之前,英国做了一个研究。当时发现针对某一种特定的病症,一般医生会开一些普通药,而不是有品牌的药。这个普通药要比有品牌的药价格要便宜,大概仅是品牌药品的十分之一,但是含量和成份是相同的。在当时,英国政府收集了英国医学界所开出的所有处方的数据。通过数据分析,发现在英国仍有一些地区的医生,在给病人开品牌的药。品牌药是普通药价格的十倍,但是它的效用并没有增加。通过这个研究,我们并不知道为什么,但是对我们很有帮助,我们可以联系这些医生,告诉他们没有必要开这种很贵的药。
还有更多的例子,上个星期,微软的研究机构发布了一项新的研究报告。微软通过在互联网上做相关词条的搜索,他们可以提前的发现,两种药同时服用的副作用。这要比医学研究机构至少要提前两到三个月。微软的研究发现,人们会在网上搜索某一种药名,同时也搜索副作用的症状,比如出血、呕吐。如果发现有大量的人搜索某一种药名和某一种副作用的症状,我们可以很有证据的说明,这个药可能会有这方面的副作用。所以这个结论不需要医学实验室,只需要有数据。
4、数据的价值和商业的应用
数据对我们的商业是非常有价值的,有很多的价值等待着我们去发现和开发。数据的经济意义,在于数据是可以重复利用的。从目前来说,我们有很多数据并没有被发现他的价值在哪里。对我们来说,最好的方式是保留这些数据,不停地去分析和处理这些数据,我们会在未来发现这些数据的意义。
在我的书里也提到过快递公司或者是运输公司的数据。比如美国的UPS(美国联合包裹速递服务公司),他们有六万辆运输的车辆,并会实时监控这些车辆所在的地点,车辆的速度以及是否有一些振动等。UPS拿到了这些数据,除了可以监控和管理整个运输车队之外,发现也还有其他的用处。比如他们认为,可以把车上的导航软件做一定的设置,让他从一个点到另外一个点的路线,尽量采用右转的方式。尽管左转路线会近一点,但是左转的时候要在路中间等待,发生事故的几率会更大。因此,他们把导航的软件设置,设置成为尽量多的右转。
如果是十年或者是二十年前,你要问UPS的负责人,从一点到另外一点应该怎么走,他肯定会告诉你走直线或者是最近的那条路,谁知道现在他们完全发生了变化。他们会跟你说,我们会绕路,会走右转比较多的路。有趣的是,当时UPS收集这方面数据的时候,并不是为了解决这个问题,他们是为的其他目的收集的。当我们发现,重新利用这些数据的时候,我们得到了一个新的解决方案,帮助他们改善了导航系统。
另外一个例子是Inrix,这是我本人非常喜欢的一个公司。上个星期我刚刚去西雅图参观了这家公司.这家公司的业务是帮助人们找到从A点到B点最快的行车方式。而且,Inrix所做的导航软件并不是普通的导航软件,同时它会告诉你附近街区的交通流量怎样,帮助你会躲开交通堵塞的地区。现在Inrix每天要帮助大约一亿个交通工具做导航。
Inrix是如何发现路上的交通拥挤状况是怎样的?现在很多人的智能手机上,都安装了Inrix的软件,可以看到实时的地图,以及地图上显示的交通拥堵状况。但是这一亿的用户,实际上他们也充当的传感器的角色。Inrix会收集每个用户在哪里,他们现在要去哪里,他们行进的速度怎么样这样的信息,所以他们不光有一亿个用户,也有一亿个传感器。
对于公司用户来说,像FedEX或者UPS,他们也要花钱购买Inrix的软件。我们可能会问一个问题,为什么UPS自己不做这件事?它也有很多车,它可以让它的车传回当时交通的状况,来分析,把最合适的路线传回给这个车,为什么要购买Inrix的软件?原因很简单,就是规模。UPS只有六万辆车,它只有六万个传感器。而Inrix有一亿用户,有一亿个传感器,所以Inrix会提供更准确的数据。同时,UPS也就丧失了对这些数据的控制权,这些数据的价值落入Inrix的手中。
Inrix如何利用这些数据?一个利用方式是导航软件。他们还发现,他们可以重新利用数据获得一个增值。举个例子,英国城市规划部门就买了Inrix的数据,他们觉得Inrix的数据可以帮助他们更好的规划城市的交通。比如说通勤车的(上站和下站)应该在哪里?上班的人一般会自己开车,到通勤车的起点站,他们把车停在哪里,这样才能把路线规划的更符合人们的实际需求。Inrix在美国的国会里,也是有非常重要的地位。有一些国会的政治家,可能会说现在经济有危机,在我的家乡或者在我选区的地方是没有的。有了Inrix的软件,他们就不能说谎了。因为Inrix软件可以看到在商业区或者是购物区当地的交通流量,这方面的数据,间接的就说明了当地的经济状况。甚至我们也可以用inrecekes赚钱,美国有一个对冲基金,他通过监控美国一些连锁的零售店交通状况,来预测这个零售店未来的零售额会不会有增长,以次来决定是否购物或者卖出零售店的股票。
另外一个例子,也在我的书中提到了,就是23&ME。这个公司是做DNA分析,通过分析你的唾液来了解你DNA的问题。一般它会说是做小规模的数据分析,比如只会研究DNA十亿个信息点里的一百万个信息点。但如果你提供你的唾液样本的时候,没有仔细看他们的知情书,没有正确的点到按纽的话,结果你会发现,你的样本被他们做了一个完整的分析,并且他们会将这些数据提供给医学研究者做分析。所以,23&ME这家公司,不仅仅为客户做唾液的DNA的分析,同时它也是一个销售、分析DNA数据的公司。
5、数据成为一种基础设施
数据可以为我们提供非常多的价值。当今的时代,数据就是基础设施,就像我们都熟悉的公路、电网、自来水一样。在云的世界里面,数据的存储和处理也是一种基础设施。就像我们刚才提到的交通数据处理公司Inrix,作为非常成果的公司,在美国也有非常多用户,但是这家公司的员工总共也不到30个人,而且没有自己的服务器,他们使用的是亚马逊的云服务。
你们可能知道亚马逊在美国有一项很出名的服务,就是视频点播。他有一个很重要的竞争对手叫Netflix,如果你在美国想看视频点播的话,基本上不是亚马逊就是Netflix。这两家公司都使用大数据服务,是为了给他们的客户做一些推荐,推荐他们认为客户会喜欢的一些影片。有趣的是Netflix自己是没有服务器的,他使用的是亚马逊的服务器。所以可以看到,亚马逊在给他的竞争对手提供服务。
之前我们说,信息的处理是一种基础设施,接下来我要说数据也是一种基础设施。当数据对我们变得如此重要的时候,我们将来也许可以让我们的政府开放一些政府的数据库给大数据公司。大家乍一听到这个想法,会觉得很奇怪。但我们想一想,当数据已经成为了我们经济发展的动力,能够为我们的社会带来更多的经济利益的时候,这个时候,掌握了很多数据的政府,他就应该为我们的人民提供开放数据库的机会。
在美国,政府在讨论一个问题,要求所有获得公共基金资助的研究者,公开他们的研究基础数据。我们的目标,尽量能够多提供数据的来源,来帮助我们实现一次数据的变革。
6、驾驭大数据时代
最后总结一下,大数据能够帮助我们更好的了解世界,也能够帮助我们更好的做出决策,包括医疗服务应该是怎样的,包括我们如何教育我们的孩子,包括一辆车可不可以自己来驾驶,大数据也带给我们很多新的挑战和危险。非常重要的一点,我们能够非常好的利用这些数据,确保人类是这些数据的主人。也就是说,除了我们非常需要从数据学习,同时我们也要给人类自己的想象力,给我们的逻辑判断能力留一个空间,因为最终是我们来决定如何使用数据。数据永远只是现实的一个投影,永远只是不完美并且不完整的。当我们步入大数据的时代,我们相信,我们永远应该保持着一种谦恭和人性化的心态。
  • 上一篇文章: 《大数据时代》 维克托•迈尔-舍恩伯格

  • 下一篇文章: 游艇设计软件研究
  •    
    [注:标题搜索比内容搜索快]
    发表评论】【告诉好友】【打印此文】【关闭窗口
     最新5篇热点文章
  • 轨道钢承重计算公式及应用[109]

  • 【选型】如何为变频器选取阻值…[86]

  • AIS2023参展厂商名录[346]

  • AGV综合选型[170]

  • APIE 2023第4届亚太国际智能装…[138]

  •  
     最新5篇推荐文章
  • 外媒:正在唤醒中国的习近平[305]

  • 中国反伪科学运动背后的CIA黑手…[494]

  • [转载]袁隆平真言:中国最大的…[668]

  • 台专家:当年我们造IDF时 大陆…[572]

  • 旅日华人:中国严重误判日本民…[577]

  •  
     相 关 文 章
  • 浅析大数据审计的推广与应用[18]

  • 构建行业通用、开源共享的审计…[27]

  • 大数据审计服务提供商[16]

  • 大数据[17]

  • 『优酷视频』S-BUY:用大数据服…[45]


  •   网友评论:(只显示最新10条。评论内容只代表网友观点,与本站立场无关!)
        没有任何评论
    设为首页 | 加入收藏 | 联系站长 | 友情链接 | 版权申明 | 管理登录 | 
    版权所有 Copyright© 2003 晨光科技        站长:璀璨星辰        页面执行时间:167.97毫秒
    Powered by:MyPower Ver3.5