阿里巴巴转型《大数据时代》电子书公司怎么玩

点击联系发帖人 时间：2018-07-23 07:40

如何理解大数据时代

阿里大数据技术如何进化？资深技术专家带你回顾
妹导读：很多童鞋在后台留言，希望看到大数据相关的文章。因此，今天带来一篇阿里资深专家观滔在2017年云栖大会的精彩分享，为大家展示阿里大数据计算服务的进化演进、以及MaxCompute解读。一、阿里云大数据计算服务概述大数据计算服务MaxCompute的前身叫做ODPS，是阿里巴巴内部统一的大数据平台，其实从ODPS到MaxCompute的转变就是整个阿里巴巴大数据平台的演化过程。所以在本次会着重分享阿里巴巴大数据在过去七八年的时间所走过的路以及后续技术发展大方向。
首先做一个基本的定位，大家可以看到下面这张图是一个航空母舰战队。如果把阿里巴巴整体数据体系比作这个战队，那么MaxCompute就是中间的那艘航空母舰，几乎阿里巴巴99%的数据存储以及95%的计算能力都在这个平台上产生。
每天有大概超过一万四千名阿里巴巴内部的开发者会在这个平台上进行开发，也就是每四个阿里员工中就有一个在使用这个平台。每天有超过三百万个作业在这个平台上运行，几乎涵盖了阿里内部所有的数据体系，包括支付宝的芝麻信用分，商家的每日商铺账单以及“双11”的大流量处理都是在这个平台上进行的。MaxCompute平台有上万台服务器分布在多个不同地域的集群中，具备多集群的容灾能力。在公共云上，MaxCompute每年以250%的用户量和计算量在增长。此外MaxCompute对接到专有云平台上提供了几十套的部署，这里包括了大安全、水利等所有政府业务，也包括城市大脑项目，几乎所有城市大脑项目的底层都是使用这套系统做存储和大数据计算服务，以上就是对于MaxCompute平台的整体定位。如下图所示的是MaxCompute平台技术全景图。其中最底层是计算平台，最下面是数据流入流出的数据总线，称为DataHub，它现在也为公有云提供服务。数据会通过DataHub流入到MaxCompute大数据计算平台上来，在MaxCompute平台上会与包括人工智能平台在内的所有平台进行互动构成完整数据平台的计算体系。在这之上是开发套件，如Dataworks、MaxCompute Studio，其包括最基本的对数据的管理和认知、对于数据的开发以及对作业的开发和管理。针对于这样的开发和基础平台，向上提供的计算服务包括语音转文本、光学文字识别、机器翻译以及智能大脑这些业务类的产品。在应用层就包括了向淘宝、等比较老牌的淘系产品以及比较新的、菜鸟网络以及合一集团等提供所有的技术服务，以上就是MaxCompute平台对内和对外的整体布局。
二、阿里巴巴数据平台进化之路接下来分享MaxCompute平台在过去的七八年时间里是如何演化的。在淘系建立之初，在2009年之前使用基本都是IOE的系统，当时阿里更加偏重电商系的系统，属于垂直线的。当时每个BU都有自己的一套从上到下、从业务到平台的产品。2009年的时候，使用的数据库基本都是Oracle，当时阿里巴巴拥有亚洲最大的Oracle集群，所以在那个时候戏称为Oracle之巅，当时的计算规模已经到达百TB的级别了。然后发现随着淘宝运算量的发展，也随着用户量每年以百分之几百甚至上千的增长速率不断增加，Oracle集群无法承接所有业务的发展，所以当时思考的第二个项目就是Greemplum。因为Greenplum与Oracle的兼容度比较好，所以当时想到在Oracle遇到瓶颈的时候使用Greenplum做第二条的基础发展路线。
在阿里巴巴发展之初，各BU都以各自为战的状态发展，其实这也是各个公司在创立之初的普遍状态。大约经过了一年多的时间，阿里巴巴又遇到了Greenplum的天花板，此时的数据量大概比Oracle扩展了10倍。但是此时发现Greenplum在百台机器之后就很难再扩展上去了，但是即便是百台机器的规模对于阿里这样蓬勃发展的企业而言是远远不够的。2009年9月阿里云启动，当时给出的愿景是要做一整套计算平台，其包括三大部分：底层的分布式存储系统——盘古、分布式调度系统——伏羲、分布式大数据存储服务——ODPS，也就是现在的MaxCompute。大概花了一年的时间，第一个平台开始运行了，当时的ODPS就作为核心的计算引擎在其中发挥作用。到了2012年，这个平台基本上稳定了，这时候开始做到数据统一存储、数据统一的标准化和安全统一管理。当做实现了上述目标之后，在2013年的时候开始大规模的商业化。当时做了一个“5K”项目，也就是单集群突破5千台，同时具备多集群的能力，这种二级扩展能力基本上就标志着阿里内部的数据平台的奠基基本完成。与此同时，因为在做这套产品时候，由于各个BU之间之前是各自为战的，有很多的BU采用了开源的Hadoop体系，所以在当时有两套体系同时存在，一套称为云梯1也就是基于开源体系的，另外一套叫做云梯2就是阿里内部自研体系的。那时候阿里巴巴的Hadoop集群做到了亚洲最大规模，达到了5000台，能够提供PB级别的数据处理能力。2014年到2015年，因为有两套技术体系并立，所以阿里内部做了一个决定就是将整个技术体系进行统一，所以启动了“登月”计划。而在“登月”的过程中必须要考虑几个需求：多集群的能力良好的安全性海量的数据处理能力并且需要具备金融级的稳定性。基于上述需求，阿里巴巴当时选择了云梯2系统，也就是今天大家看到的MaxCompute。2016年到2017年，MaxCompute开始对内支撑所有的业务，并且也开始对外提供服务。多集群扩展到超过万台，并且开始全球化的部署，现在MaxCompute在美东、美西、新加坡、日本、澳大利亚、香港、德国以及俄罗斯都部署了集群。
登月计划 —— 一个统一的过程接下来分享“登月”计划和为什么选择这样的一条技术路线。正如上述所提到的在执行“登月”计划之前，各个BU之间存在着大大小小数十个计算平台，这是业务初期的必然属性。而在技术上最终出现了两套体系，一套是基于开源的体系，另外一套则是基于自研的体系。其实这两套体系在技术和架构上来讲或多或少都有相互的借鉴，但是在技术发展线路上又各不相同，在数据存储格式、调度方法以及对外运算接口上也是各不相同的。当时遇到了以下几个问题：扩展性差，在两三年前的那个时候，Hadoop体系的NameNode，JobTracker，HiveServer等都还是单点系统，在稳定性层面上存在一定的问题。性能低，在5K及以上的规模上引擎性能的提升有限，也就是在5K以下基本上可以做到线性扩展，但是超过5千台之后可能就会有问题。安全性不够高，这一点是非常值得关注的问题。因为整个阿里巴巴在万人级别的规模上是一套标准的多租户体系。所谓多租户就是阿里有很多个BU，每个BU之下有很多个部门，每个部门之下还有组和员工，那么每个BU以及每个部门之间获取的权限应该是不同的，对于如何在数据安全的前提下进行共享的要求非常高，对此基于文件的授权体系不能满足灵活要求。稳定性比较差，不能支持多个集群和跨集群容灾。并且当时代码虽然开源但反馈回社区的周期很长，很多集群变成事实上的“自研”系统；这又进一步导致的版本不统一，各个集群无法互联互通!当时出现的问题就是淘宝的数据，天猫都无法使用，小微金融的数据其他的BU也无法使用，互相申请权限非常困难，整个体系无法打通。但是大家都知道阿里巴巴不是依靠实体资产，阿里巴巴没有商品和仓储，内部最为核心的就是数据资产。如果在平台性的体系中，数据无法做到互联互通和高效运转，那么就会对公司发展造成很大的危害。所以阿里巴巴就经历了这样的一个“漫长”和“昂贵”的登月过程。在登月计划中，阿里巴巴集团层面牵头，其中有名有姓的项目大概有24个，当时的登月1号是阿里金融，登月2号是淘宝，这24个项目的“登月”总共历时了一年半的时间，将整个数据统一到了一起。
为了保障“登月计划”的顺利实施，当时MaxCompute平台做了这样的几件事情：保证能够满足当时Hadoop集群所能够提供的功能，在性能方面至少不会比其他平台差。在编程接口层面，需要让编程模型等多个方面兼容。提供完善的上云工具和数据迁移/对比工具，使得可以方便地从Hadoop体系中迁移到MaxCompute上来。由于不得不在业务进行中升级，和业务方一起做无缝升级方案，“在行驶的飞机上换引擎”。
在实现了统一之后大致有这样三点好处：打造了集团统一的大数据平台。“登月计划”将阿里巴巴内部所有的机器资源、数据资源统一到了一起。因为数据具备“1+1&2”的特性，所有的数据贯通之后，集群整体的利用效率、员工的工作效率以及数据流转等方面就变得非常高效的。到目前阿里集团内部计算业务运行于MaxCompute集群上，总存储能力达到EB级别，每天运行ODPS_TASK超过几百万。新平台是安全的，同时可管理、能开放。因为阿里巴巴内部存储的数据和其他的厂商并不一样，阿里巴巴内部很多数据都是交易或者金融数据，所以对于数据的安全性要求非常高，比如同一张表中不同的字段对于不同的用户而言权限应该是不同的，MaxCompute平台提供了这种细粒度的安全性。在登月的过程中，不仅将数据统一到了一起，还实现了数据分级打标、数据脱敏、ODPS授权流程、虚拟域接入在云端查询版等工作。新平台具备高性能和全面的数据统一。随着把数据统一到一起，阿里巴巴在管理平台上也做了统一化，比如统一的调度中心、同步工具和数据地图等，通过这些将阿里的数据体系进行全面的统一。而且新平台因为经过了很多的业务锤炼和梳理以及人员的整合，整个团队在一个比较大的规模上可以投入到一个平台上做更好的性能优化和功能调优，所以在2014年存储资源优化节约几百PB，通过梳理，各业务团队的作业数/计算量分别有30%-50%的下降，一些历史遗留问题得到全面的清理。三、MaxCompute 2.0 Now and moving forward接下来分享当阿里巴巴具备了内部统一的大数据平台之后，未来在基础和业务上应该如何做。MaxCompute 2.0 架构持续升级在2016年杭州云栖大会上，阿里巴巴发布了MaxCompute 2.0，那个时候推出了全新的SQL引擎并且提供非结构化处理能力，在2017年MaxCompute做了持续的创新和优化。如下图所示，MaxCompute 2.0实现了很多的技术创新，最上面MaxCompute提供了DataWorks开发套件以及MaxCompute Studio；在运算模式上可以支持多种，比如批处理、交互式、内存以及迭代等。再往下在接口层面，今年会推出一个新的查询语言叫做NewSQL，它是阿里巴巴定义的一套新的大数据语言，这套语言兼容传统SQL特性，同时又提供imperative与declarative优势。
在引擎层面，优化器除了可以基于代价还可以基于历史运行信息进行优化。在运行时方面，将IO做成了全异步化。在元数据管理、资源调度和任务调度方面主要做了两件事，一个是做到了Bubble Based Scheduling，也就是当将所有作业数据连接到一起进行Bubble Shuffle的时候，要求上下游是完全拉起的，这对于资源的消耗是非常高的，而Bubble是通过做一个合理的failover 的Group在资源和效率上找到一个平衡点；另外一点是今年着眼于生态和开放性，可以和Hadoop以及Spark等集群做灵活的互动，这是今年在生态层面的发力。在底层，MaxCompute今年除了提供原始的文件格式之外还提供了Index的支持，提供了AliORC，它与社区原生ORC兼容，性能却更高。此外，MaxCompute今年还开始做分级存储，除了内存和缓存以外，还会在SSD、SSD的HDD以及冷备压缩存储上做分层存储，今年其实在内部已经提供了超密存储的机型，未来也会逐步地转移到公有云上来。大数据计算典型场景分析（从开发到上线）下图所示的是大数据计算的典型场景分析，这也是阿里内部大多数员工以及云上的经常会接触的事情。通常情况下，一套大数据体系的建立需要分成这样几个过程，需要从数据源到开发阶段再到生产阶段。首先，数据源可以是应用，也可以是应用的服务，也可能来自应用的log日志。一方面可以将应用的信息通过log或者message的方式上传上来，另一方面很多数据信息其实落在DB中，DB的binlog其实可以被采集下来同步到数据平台中。另外一部分数据源就是已有的存量数据。当拥有了这些数据之后可以通过主动拉取、手动上传以及同步中心的方式将数据上传到集群中来。之后就可以进入开发阶段，开发阶段又分为三个部分，第一个部分是数据发现，也就是究竟有什么样的数据可以用，通过IDE的方式做作业的编写或者做数据的编写。在开发阶段提供了通用计算、机器学习、图计算以及流计算等。
在开发完成之后进入到生产阶段，在生产阶段的Workload就分成3部分、一类叫做Workflow，每个月生成一份账单报表就是一个典型的Workflow任务，其特点就是具备周期性，比如每天、每小时或者每个月，这种类型的作业通常情况下作业量比较大，但是周期性却是可以预测的。再往下就是Interactive Analysis，也就是交互式查询，大家可能某一天希望看到数据上的某些统计信息，然后基于这些信息做商业决策，这也许会写到明天的某一份报告里，这种是与开发者做交互的，写一个作业上去发现数据有问题再调整回来，然后来回做这样的交互。第三点是基于时序或者流式的数据处理，这种处理比较典型的就是“双11”数据大屏，它就是滚动的流式计算的典型特点，基本的生产场景就分为以上三大类。这三大类场景的要求是各不相同的，在数据源层面，对于数据的上传，当数据量比较大的时候，隔离流控是一个技术要点。同时当进入到生产阶段，数据的上传上载需要具备完整性的检查，包括需要进行规则检查的补充。当数据上传变成常规形态的时候，每天都会进行数据上传的时候就有可能因为系统、应用或者数据源的问题导致数据断裂，这种情况发生之后就需要系统具备补数据的能力。而系统也需要对于开发阶段提供必要的支持，因为开发阶段通常是小数据量的，代码和脚本的更新速度比较快，可能经常处于试错的过程，所以需要系统具备准实时的能力、开发效率和Debug效率，这实际上是对人提出的要求。当进入到生产阶段的时候，通常情况下作业相对比较固定，资源和数据量消耗大，对于稳定性的要求就比较高，系统需要提供系统级别的优化能力以及运算能力。以上就是站在阿里巴巴的角度看的从开发到上线的大数据典型场景的分析。大数据计算典型场景分析（从计算量和延迟的角度）下图所示的是一个从计算量和延迟的角度看的数据轴，从数据量上看，从100GB到10TB再往上，最高可以到PB级别，在“双11”当天，MaxCompute平台处理了上百PB的数据。在延迟的角度，会达到非常低的延迟状态。可以看到图中的橘色斜线，其含义是当对于数据量以及实时性的要求越高成本就会越高，所以大数据计算的要求就是将这个轴一直向上移动，也就是能够在更短的时间内处理更大量的数据的时候成本越来越低。
在作业分析来看，主要分成三块，其中最典型的数据清洗、数仓建立以及报表类的作业等通常情况下是以小时和天为单位运行的，按照阿里巴巴的数据统计基本上20%这样类型的任务会消耗掉80%的计算资源，这样任务的特定就是基本上以定时任务为主，query是固定的，所以通常情况下运行效率比较高。而实时监控类型的作业就是典型的流计算业务，比如像监控报警、大屏广播等。而交互式作业大致分成两部分，一类是分析类的另外一类是BI类，BI类的意思是说大多数的人可能看不到Query和中间系统，只能看到BI环境比如像阿里云对外推出的QuickBI，大家可以通过配置和拖拽的形式访问系统，这种用户通常是非技术人员，这对于系统的交互性要求比较高，因为其是在UI上进行工作的，同时对于这样的工作一般有比较强的延时要求，一般是在秒级或者几十秒之内完成这样的作业，所以通常情况下数据量比较小，要求数据提前整理好。交互分析的数据量处于中小级别，有一定的延迟要求。所以这样不同任务对应的不同的技术优化方案，Data Workflow就偏向pipeline型的作业，提升运行性能和效率是关键，对于以开发类和BI类的作业为主的，作业量比较大占大头，但是整体资源占用率比较低，对于这种类型开发效率和时序化是关键。今年在MaxCompute大数据平台的发展上，除了继续提升整体系统效率以外，时序化和开发效率也是今年的重点。大数据计算交互式BI类场景分析在这三种Workload中重点分享一下其中比较基本的BI类的作业。为了实现这样的业务所以对于实时性有更高的要求，比如onlineJob的优化、热表Cache、Index Support等，还要有更优的查询计划、运行时的优化、生态连接、存储格式的进一步提升，需要在数据上支持Index使得在进行运算的时候可以将数据聚集到更小的规模上去，以上这些都是相关的优化。
如下图所示的是OnlineJob的基本设计思想，OnlineJob主要是针对中等规模、低延迟的交互式场景，并且提供了可靠的服务，目前在阿里巴巴内部60%的作业都以这种方式来运行。这个模式主要使用了这样的几点技术：进程常住（以服务的形式Stand by），进程随着作业完成之后不销毁，一直处于等待状态。进程可以做到作业间复用。网络直连，避免落盘。事件驱动的调度方式。基于统计和历史信息的自动切换，用户不感知。
下图所展示的是交互式BI类场景下一个优化的例子。传统基于educe的方式拉起多个Mapper做Shuffle的时候数据会落到磁盘里，然后再由下面的Join去读取，中间是割裂的，需要进行一次磁盘的数据交换，而MaxCompute的方式是做网络直连，这样的好处是不用等到第一个Session做完，第二个Session就可以启动，而这样同时也会带来一个坏处就是当failover的时候Group就会变得很大。所以需要做的额外工作就是在内存中及时地进行Checkpoint，这个Checkpoint也可以做到SSD上或者另外一台机器上，这样的方式既提高了效率也降低了延迟并且能够保证failover Group不失效。
MaxCompute今年与Intel进行了合作在2017 BigBench新的大数据标准上做了评测，这个评测不再是简单地进行Sort，它一共具有30多个Query，这里面包括了基本的SQL Query以及MapReduce Query以及机器学习的作业，其评测的标准除了规模以外也会关心性价比。目前MaxCompute是全球第一个将这些Query从10TB做到100TB级别的引擎，这样的能力也是基于阿里内部庞大的数据量的锤炼获得的，其次MaxCompute是首个达到7000分的引擎，第三点是MaxCompute性价比的优势，我们是首个基于公共云的服务可以跑通整个Query的服务，总体而言费用也是非常便宜的。
为什么选择MaxCompute作为大数据平台
为什么选择MaxCompute作为大数据计算平台呢？在商业层面来讲，有以下几点优点：MaxCompute是一个开箱即用的系统，大家完全不用考虑系统的规模问题。MaxCompute有很多性能层面的评测和优化，可以实现性能和性价比的最优。MaxCompute基于阿里巴巴内部的非常丰富的安全体系保障多租户情况下的数据安全。MaxCompute可以支持多种分布式计算模型。MaxCompute支持上云工具，包括社区兼容和生态链。从整体流程来看，如果用户的数据已经在阿里云上了，那么就可以非常容易地通过多种形式迁移到MaxCompute上来。如果数据在线下，可以通过专线或者VPN等形式在已有的数据集上通过各种同步工具迁移到云上。在云上可以通过数据集成和大数据项目的开发工具进行开发。针对普通的数据集成可以使用Data IDE以及专门的插件进行开发。当进入集群中使用平台做数据计算服务的时候，可以非常方便地实现与机器学习平台的联动，也可以和阿里云的推荐引擎、报表分析产品工具等紧密地结合在一起。
我的分享就到这儿，谢谢大家。（转自：搜狐科技）
（编辑：）基于快速发展下的大数据应用研究--以阿里巴巴公司为例_论文_百度文库
您的浏览器Javascript被禁用，需开启后体验完整功能，
享专业文档下载特权
&赠共享文档下载特权
&10W篇文档免费专享
&每天抽奖多种福利
两大类热门资源免费畅读
续费一年阅读会员，立省24元！
基于快速发展下的大数据应用研究--以阿里巴巴公司为例
中国最大最早的专业内容网站|
总评分0.0|
试读已结束，如果需要继续阅读或下载，敬请购买
定制HR最喜欢的简历
你可能喜欢【特别报道】阿里大数据专家：数据上云之后，企业热衷做什么？
2016年1月，阿里云在云栖大会上海峰会首次公布全面的大数据战略和一站式大数据平台“数加”。当时，参会者在展区围住阿里云数据业务部高级专家陈鹏宇，甚至有企业在现场直接拉群，邀请陈鹏宇入群探讨数据业务。
陈鹏宇2010年加入阿里巴巴，从负责蚂蚁小贷业务的大数据技术开始，在早期就参与了阿里大数据业务的发展过程。在阿里云公布大数据战略一年多后，陈鹏宇总结企业用户在大数据实践中的“三部曲”：看数据、用数据和跨行业打通数据。
阿里云数据业务部高级专家陈鹏宇
“看数据”要像“看电视”
“Data 1.0阶段是看数据，这是大部分企业的基本刚需。”陈鹏宇说。虽然看数据的传统BI工具已发展多年，但对企业老总和业务人员来说，看数据仍然不是一件简单轻松的事。这是因为传统BI都太复杂，企业还要花大量时间来解决数据孤岛问题。
“现在有了云，数据采集后直接上云，天生就能融合在一起。只要有合适的工具，就能让看数据变得简单”。
阿里推出了看数据的工具Quick BI，突出“快”。它的理念是，老板和业务人员有需求，不再需要传统上分析师转化需求和数据工程师准备数据的过程，不用写代码，可直接连上云端的各种数据库，用户“拖拖拽拽”就能产生各种数据报表。而之前，“看数据”的响应周期是以周来计算的。
“我们希望今年把Quick BI做成阿里云的标配，就好比每家每户都有电视机一样。”陈鹏宇说。
在“看数据”上，阿里云还有一种大屏产品DataV，据说这是阿里云上生意极为兴隆的业务之一。它是一种软硬结合平台，无论阿里自己的日常业务展示、“双十一”大屏展现，还是长江三峡工程、杭州城市数据大脑中都有这种大屏的身影。
今天在数加平台上有3万个大屏模板，都是客户设计分享出来的。“我真的没有想到，它很快就成了一个爆款。”陈鹏宇说。
机器学习“不高深”
到了Data 2.0阶段，数据要直接为业务所用，就像创新小贷业务，没有信贷员，用数据决策贷款发放。“数据+算法就能解决业务问题。”陈鹏宇说，“其中最关键的是算法效果，这方面的人才很缺，我们叫他数据科学家。”
陈鹏宇观察，目前市场上需求强劲的是个性化推荐。但以前只有淘宝、亚马逊这些大公司才能玩，因为要写算法、要有庞大的计算资源反复训练模型。
中小电商、新闻网站、音乐社区能不能达到千人千变的效果？现在，阿里团队把推荐算法和数据处理过程包装起来，用户只要按预定格式输入三类数据——脱敏客户信息、物品信息及客户和物品之间的历史行为，就可以得到推荐结果。
在新闻推荐上，陈鹏宇坦言《今日头条》做的推荐算法不错。“这要对新闻做比较完整的画像，与商品推荐不同，要通过自然语言处理，提炼出新闻内容的关键词”。
不难想象，推荐算法用到了机器学习，但这是一般企业都不敢碰的高深技术，同时还需要大量计算资源——一个个性化推荐算法，模型训练周期很长，可能要跑好几天。为此，2015年阿里云推出了机器学习平台PAI，最近这个平台刚刚发布2.0版。它把机器学习算法封装好，将成百上千的参数隐藏起来，提供很多模板。
“你只要大概了解一下逻辑回归、数据森林用在什么场景下，就可以开始工作了。”陈鹏宇说，“有了这类平台，做过数据分析和数据开发的工程师都可能往数据挖掘的道路上转型。”
机器学习技术的普世化让大量中小创新梦想成真。如利用PAI，墨迹天气每5分钟就可针对某一精准区域做一次天气预报。
“受控的核反应堆”
到了Data 3.0阶段，业界将交叉打通数据。
去年，曾有企业推出人工智能手机——手机能神奇地了解你的所需，并主动帮忙。例如，你外出旅行，飞机落地可以自动帮你叫车去之前订好的酒店；你在电商平台购物，它会货比三家，还能在你走近快件储存柜时，自动提示取件码。仅仅这几个场景，背后就需要打通航班、酒店、叫车、电商和物流等不同领域大企业的数据。
陈鹏宇预测，在Data 3.0阶段，会有很多公司提供数据打通和应用创新服务。“而数据打通一定要有机制。”他说，“我们说是在一个受控的核反应堆里，完成数据新能源的化学反应。”
这意味着，当不同企业的数据进入到受控平台，他们可以写程序，用到平台中的各种数据，哪怕是用户的敏感信息。但任何人，包括写程序的人都看不到数据，这叫“数据可用不可见”，而且谁也拿不走。“我们确保数据的流通和使用权，但不是版权和拥有权。裸的数据拖来拖去，一定是不行的”。
今年春节后，菜鸟与物流公司在阿里数加平台上构建一个受控的数据交换中心，叫菜鸟物流云数据池。菜鸟和物流公司都把数据放在那儿，并使用平台上的配套工具分析数据，展现结果。如查看哪些包裹线路比较繁忙，物流公司可在仓储、人力上进行更好地调配。
这样的数据流通和应用机制，能让一些公司改变态度。“因为现在基本上每家公司都想用别人的数据，但又不想把自己的数据给出去”。
传统企业的积极姿态
对数据的应用需求不仅来自互联网企业，传统企业也找到大型互联网公司寻求合作与创新。“特别是以前没怎么具备数据化服务的行业，如地产、旅游和工业”。
协鑫光伏科技有限公司是全球第一大光伏企业。在太阳能面板生产中，生产良品率每提升1%，公司就能提高上亿元收入。“我们通过历史上每一次切割的参数值和最终切出来的良品率去做分析，最终找到影响良品率的600多个因素，协助协鑫调整生产工艺和流程”。这套方法论是可以复制的。同样的，阿里也协助中策橡胶提升了3%到5%的良品率。
再如像波司登羽绒服，以前的渠道主要是门店，但“双十一”购物大潮到来之后，波司登也有了很多电商渠道。如果这两套系统不打通，仓储和调货会很麻烦。波司登利用阿里云企业级互联网架构，打通了它的内部数据，把库存降了下来。很多企业类似波司登，采用混合云，先把线下门店和线上门店数据跑通，来降低库存。
陈鹏宇不断强调云上数据的安全性。这是很多客户的顾虑。“当数据在线化后，企业会担心数据在一朵云上，会被云供应商管控了，其实这个担心是没有必要的。”陈宇鹏说，“我们给客户提供所有第三方审计，例如我们通过了公安部的等保三级认证，相当于金融服务水平。你把数据放在云上，就好比把钱存在银行，或者放心打手机而不担心被监控是一样的。”
作者 | 赵艳秋
微信编辑 | 李昊原
原文发表于《IT经理世界》，转载请注明
关于云与数据智能
多的是你不知道的事
扫码加入交流群[云与数据智能]
就能一起讨论相关话题
并且有IT君、IT姐带你玩儿
【云与数据智能微信群】
责任编辑：
声明：该文观点仅代表作者本人，搜狐号系信息发布平台，搜狐仅提供信息存储空间服务。
今日搜狐热点}

久游无息网