真正的什么叫大数据分析公司标准是什么?

企业大数据传播哪家强?财视联手五大数据公司力推权威榜 - 动点科技
企业大数据传播哪家强?财视联手五大数据公司力推权威榜
总有一些企业活在趋势里。对于时下最热的大数据,已有不少企业开始试水。
那么,具体到传播方面:企业大数据传播是可评估的吗?什么样的人在偷偷关注你的企业?你的企业给用户的印象是屌丝还是男神,是高富帅还是白富美?不要想当然的以为,这些你都懂。最终你会发现在“别人的眼中”,你完全不是你想的这样!千辛万苦想传达的形象,最后却被用户背地里吐槽,对于这个残酷的现实,你准备好应对了吗?
由财视传媒、传播达人汇联合《中国新闻周刊》主办的 2016 年度 TOP30 企业大数据传播创新奖颁奖晚会,或许会让你的上述疑虑一扫而光。11 月 13 日,由财视传媒、传播达人汇主办的“15 派 2016 星际创客峰会”将在北京富力万丽酒店举行,当晚主办方还将联合《中国新闻周刊》颁发“2016 年度 TOP30 企业大数据传播创新奖”。
该奖项评选耗时数月,选取了五个最火热的领域:消费品、制造业、地产业、金融创投业、互联网科技,根据百度企业搜索指数测算,将在每一个行业中列出 40 家企业。在这些企业中选取其中的 20 家,组成 100 家天团企业进行评选。
获奖的路注定是不平坦的。100 家企业要经过财视传媒与包括《中国新闻周刊》在内的近 30 家媒体评审团一起筛出 50 家企业。第一轮筛选就要砍掉一半,竞争十分激烈。而在媒体评审团的开放资源窗口的支持下,通过观众投票以及百度、搜狗、今日头条、一点资讯大数据监测情况,易观将根据这些数据类别设置传播价值评估模型,最终评选出 30 家获奖企业。
有小伙伴问:联合进行奖项评选的都是哪些公司呢?
首先是百度。百度靠着遥遥领先于其他公司的技术,在搜索领域有着绝对性的地位,此次参与评选提供的搜索指数必然是业内最具代表性的。
其次是今日头条。今日头条“你看了什么,我推什么”的独家推荐技术,它在此次评选中将提供推荐指数,毕竟论推荐没谁敢说比它更精准。
搜狗除了拥有在知乎的搜索权限,也是微信的独家搜索授权方,它的输入法更是市场上的拳头产品。作为社交群落信息的拥有者将在此次评选中提供互动指数。
推荐、互动、搜索都有了。接下来一点资讯独创的专利技术可以智能地分析用户爱好从而进行内容推荐,而它在此次评选中所提供的“兴趣数据”更是十分稀缺,你在别家都看不到。
而最后坐镇的便是以大数据著称的易观,易观凭借其海量的数字用户数据、专业的大数据算法模型,打造了以此为核心优势的“大数据服务与分析师服务生态体系”。在此次评选中它将通过对数据的分析计算出相关价值指数。
此次企业大数据传播报告,除了有技术方面的数据监测,还有多家极具影响力的媒体组成媒体评审团,他们是经济观察报、每日经济新闻、网易、搜狐、国际商报、中国日报网、齐鲁周刊、中外管理、科技日报、中国经营报、动点科技、电科技网、中国经济网、寻找中国创客、创业邦、IT168、HI 科技、北京参考、亿邦动力网,中青创客、北京时间、金融界、大公网、听闻、I 投资、品途商业评论等。媒体评审团在参与评审的同时,还将开放用户资源进行投票。
最终,我们将通过对热度指数、相关词、用户画像三个数据维度的筛选,用大数据剖析百家企业的传播力度和生存现状。而传播业从它诞生之日起,就和大数据密不可分。但各家企业往往得到的是一个大数据集结的结果。但对于分行业做传播数据方面的综合评估,此前还未出现过。财视传媒便要做第一个吃螃蟹的新媒体传播机构。
如今已是大数据时代,企业发展的一个重要命题是如何利用好大数据(结构化数据,非结构化数据,实时数据,预测性分析等)来了解用户,解读市场环境,推动企业发展,以及把握新趋势命脉。以往,很多企业做传播,都是以点宣传,无法做到一个面上的立体分析。我们倡导的是,不能只靠一个表面上的感性认识,而要用大数据来分析和描绘。
此次获奖的 30 家企业,财视传媒都将提供《2016 企业大数据传播创新报告》,详细提供企业的受众用户画像。展示当今市面上最鲜活、正在发生的传播案例。
关于财视传媒
一家涵盖短视频、音频、直播、VR 运营、资讯分发的新媒体平台,又为企业新媒体转型提供解决方案的创新型机构,首创性的提出了将企业传播进行大数据分析的思路,整合了五家大数据公司资源,设置了大数据评选维度,推进了整个项目的进行。
关于中国新闻周刊
由中国新闻社主办,是国内权威时政传媒。尤其值得称道的是,中国新闻周刊在新媒体传播方面做得非常出色,微博粉丝已经接近 4000 万,微信矩阵中的每一个号都是标准的大号。
2016-TOP30 企业大数据传播创新奖
渠道多元时代,企业的传播方式发生了巨大的变化。企业即媒体,企业发声、直达需要人群变得越来越容易,此时更加凸显出来传播内容的重要性。
传播是一个综合性的考量,用大数据的方式,观测海量的传播以后,才会发现企业传播体现出的有趣的、可能未经设计的结果。而接下来的一年,你可以依据这些结果进行新的传播方面的设计。
今天,让我们试图探讨和总结企业大数据传播的规律。不论搜索式传播还是推荐式传播,不管传播是搜寻题,还是选择题,企业传播都是有迹可循的,2016 企业大数据传播奖展示的 TOP15 就是那些顺应规律做传播的佼佼者。
办:财视传媒、传播达人汇
联合主办:中国新闻周刊
办:联想控股微空间
战略合作支持:人人贷
独家 VR 互动支持:海昌(中国)
独家资讯平台支持:一点资讯
大数据特别支持 :一点资讯、百度、搜狗、今日头条、易观
特别支持 :木牛流马机器人、青岛啤酒、星科创业、微链、活动家、中国三星、神州专车、空间家、丰厚资本、正和岛约局、艾诺维健康科技、天明集团、微智全景
媒体支持 :齐鲁周刊、中外管理、经济观察报、每日经济新闻、中国经营报、网易、搜狐、中国经济网、创业邦、大公网、北京参考、北京时间、科技日报、动点科技、电科技网、IT168、HI 科技、小饭桌、寻找中国创客、国际商报、中国日报网、亿邦动力网等。
官方报名平台 :活动行
17:00 签到
主持人:《财经》副主编马克
17:30 开幕
17:30-17:40
主办方致辞 :
张刚(财视传媒 CEO、传播达人汇理事长)
王晨波(中国新闻周刊副社长)
17:40-19:00
嘉宾及议题 :
喻国明(北京师范大学新闻传播学院执行院长):被大数据颠覆的传播业
张春蔚(资深媒体人、大唐雷音寺创始人):移动直播+的 100 场直播
易 鹏(盘古智库理事长):移动互联时代的信息获取迭代
治(一点资讯副总裁):大数据如何让兴趣真正引领阅读
杨石头(智立方品牌营销传播集群董事长兼 CEO):一点资讯:刺破心智的气球,一点就够!
臧中堂(神州优车副总裁):出行大数据折射的企业传播观
沈方俊(海尔集团新媒体总监):企业内容传播的新花样
19:00-19:15 大数据支持公司介绍数据出炉
19:15-19:20 财视传媒副总裁胡占莉宣布获奖及入围名单
19:20-19:30【TOP15 企业大数据传播创新奖】评选及颁奖典礼
力:界面 CEO
凯:凯叔讲故事创始人
吴玲伟:AA 加速器 CEO
张刚:财视传媒 CEO、传播达人汇理事长
王晨波:中国新闻周刊副社长
王胜军:齐鲁周刊社长
杨勣:每日经济新闻副总经理
施襄:一本财经联合创始人
王涌:财视传媒首席顾问
(日程为参考,最终会有微调)
,参与企业大数据传播创新奖投票,为你喜爱的企业贡献一票!
上一篇下一篇
TechNode TV
《硅谷心跳 2》第一集:曾创作《长尾理论》后挑战大疆,硅谷名人 Chris Anderson 眼中的中国科技
如果你的产品足够锐意创新,欢迎
多读书,多看报,少吃零食,多睡觉。
关注我们邮件订阅
输入您的邮箱地址:十项标准出台在即 大数据告别“跃进式”发展|大数据|数据分析|企业_业界_新浪科技_新浪网
十项标准出台在即 大数据告别“跃进式”发展
  国家标准委正在着手制定首批共十项大数据标准,分别是大数据术语、大数据技术参考模型、数据交易平台交易数据描述、数据交易服务平台通用功能要求、数据能力成熟度评价模型、多媒体数据语义描述要求、科学数据引用、数据溯源描述模型、数据质量评价指标和通用数据导入接口规范。
  本报记者 周慧
  实习记者 宋兴国 北京报道
  大数据企业如何发展,市场正在做出自己的选择。
  8月末,北京某酒店的一场大数据企业展上,聚集了全国各地的企业。现场展示有随着《江南style》起舞的机器人,有早期科幻电影里走出来的“触摸式数据可视化屏幕”……
  “你们的具体业务是做什么的”、“和大数据有什么关系”……和直观的服装展、美食展不同,大数据行业作为当下的风口新业态,其行业标准、商业模式正在探索中,参展的大数据企业们,以各种可视化的方式,把大数据产业的最新成果展示给观众。这场活动吸引了大批企业和研究人员,其中还包括自费从国外过来学习的教授。
  中国的人口数量,让其成为大数据大国,但却不是生来的大数据强国。国内大数据市场正在经历炒作、探路和实践期。21世纪经济报道记者采访发现,今年的大数据行业聚会,探讨的内容已经从2014年的数据是什么,发展到大数据产业的商业模式怎么做。
  从业务定位到市场开发,从产品生产到服务提供,大数据企业的发展还处于初始阶段。在大数据生态圈里,看上去很美的商业价值,已经吸引了一批创业者,将之视作弯道超车BAT的最大机遇;也有传统企业和行业巨头借势圈地扩张,寄望完成转型和整合。
  有学界和业界人士预测,大数据已经从概念炒作走向了稳步发展时期。另外,8月份出台的促进大数据产业发展行动纲要,系列鼓励和规范政策正在密集出台中。在大数据这个具体政策和标准近乎空白,正在野蛮生长的大数据产业生态链中,21世纪经济报道记者通过采访大数据产业生态链上的各类企业,摸底大数据产业的商业化落地进程。
  应用行业参差不齐
  “扫码送牛奶”、“扫码送雨伞”……进入2015年,从中关村地铁站出来,簇拥围住你的人群,不再给你发传单,而是各类APP扫码推广。APP推广的大量聚集,让这里被戏称做“扫码一条街”。
  在大数据被各方合力推上风口的当下,这些APP推广工作人员会介绍,这款应用是基于某领域海量数据库的处理和分析的产品。在很多新上线APP的宣传里,“数据为王”,“企业对大数据的态度决定未来的高度”,类似的说法越发常见。
  事实上,这些企业是不是纯粹的大数据企业尚有争议。一部分人认为,严格意义上来说他们只是通过互联网+的方式应用大数据,是大数据生态链上最终的消费者,是大数据得以应用的主要场景,而不是纯粹的大数据从业企业。
  抛开争论,这些大数据应用企业,对大数据产业发展的重要性毋庸置疑。“企业对数据的应用,是大数据行业发展的引擎”,有专家表示。
  21世纪经济报道记者发现,在每一次关于大数据相关的活动中,大数据的商业应用,是最受关注的板块。在8月26日的中国国际大数据大会开幕论坛上,关于大数据的商业应用,学界和业界即产生了两种完全对立的观点。
  北京大学鄂维南院士提到:“现在的数据分析公司是风起云涌,我把它说成是小锅炉战场,想当年大炼钢铁的时候,就是自己在家里就建了锅炉就炼。”鄂维南称,现在的确什么人都可以做,没有什么技术含量。
  鄂维南还提到,数据交易存在经济学上的悖论,数据服务作为一个业务模式,它的商业模式现在没有真正被认可,数据通过什么方式赚钱,前景不是那么清楚。
  晶赞科技董事长汤奇峰在中国国际大数据大会上发言称,大数据交易并不存在经济学上的悖论。我国企业对大数据应用的现状基本都是初期的状态。应用的主要形式还是,基于大数据得到的商业洞悉,业务推荐和智能获客等三个领域。其中的典型就是个性化推荐和智能广告。
  汤其峰在接受21世纪经济报道记者采访时表示,大数据的商业模式体现在很多方面,大数据价值在交易和流通的过程中体现,并且会发生聚变效应,实现边际效应递增。
  21世纪经济报道记者了解到,目前国内对于大数据应用,发展较好的还是以大企业为主,比如BAT、滴滴快的、Uber等互联网企业。不管是对外数据源采集,还是企业内部的数据资产管理,其互联网企业基因,以及自身的资本优势,使得他们在大数据的应用上同样处于领先的态势。
  同时,由于这些拥有大量数据资源的企业,在分析挖掘数据形成应用的同时,放弃直接依靠出售数据获利,而选择对外提供数据服务和分析结果,为应用类企业的决策和东西提供了便利条件。这也是应用类的数据企业或产品数量较大,占到了行业总数的三分之一的重要原因。
  而对于部分中小企业而言,资金缺乏和技术难题导致数据获取难,缺乏数据资产管理意识,其对大数据的使用,仍在探路中。
  另外,我国的大数据应用领域分布仍然不够全面,相关企业主要集中在互联网、市场营销、电信、金融领域,而政府公共服务、农业类应用,发展还在原始阶段,近期个别企业还不时爆出数据造假的传闻。同时,数据应用的方式单一,思路狭窄,一些企业盲目学习国外的数据应用模式,也是大数据应用企业发展的一大短板。
  抢占数据分析高地
  如果说大数据的应用,是大数据产业的商业价值终端,那么大数据行业公认的大数据分析,将会是大数据产业的核心,是大数据能够点石成金的关键。
  这样的判断是基于大数据的特性。数据本身不产生价值,当数据经过挖掘、归类和分析,能够给企业决策提供帮助之后,才具有价值。
  数据堂公司今年发布了一份《大数据产业调研及分析报告》,其中将大数据分析工作归类为商业分析、语音识别、图像分析、实时处理、空间分析、基因分析、用户分析、日志分析,和数据可视化等九个种类。目前,国内在各个领域都已出现了一批相关大数据企业。
  与上述横向划分不同,另一些看法则偏向将大数据分析按商业价值的高低进行区分。前商业分析部总监,GrowingIO的创始人张溪梦介绍说,在数据分析发展更早的美国,数据分析区块已经按商业价值从低到高地细分为数据采集、大数据架构、响应性分析,诊断性分析、战略性分析、预测性分析和全自动分析。而一旦做到数据分析全自动化,将会利用10%的时间,创造出这个行业90%的价值。
  在美国数据分析领域工作十余年的张溪梦认为,“数据分析前端过程复杂,分析昂贵,导致在过去若干年里,数据科学家90%的时间和工作都是进行数据清洗、整理、传输和存储,但真正产生价值的是剩下的10%。我们必须要利用各种先进技术,把金字塔底部做得非常狭窄,把以往很缓慢的流程缩短甚至透明化。”
  21世纪经济报道记者获悉,目前国内的数据分析产品,在与国外产品的竞争中仍处劣势。以日志搜索系统为例,虽然国内已有自主研发的日志实时搜索分析引擎面世,但市场使用的主流还是HADOOP、STORM和SPARK等国外开放计算框架下的产品,有部分互联网和金融企业则选择了SPLUNK等第三代日志搜索软件包,这同样也是美国开发的大数据工具。
  然而国内企业并非毫无竞争力,日志搜索分析引擎“日志易”的创始人兼CEO陈军介绍,这些国外数据搜索处理系统价格非常昂贵,同时由于之前的“棱镜门”事件,国外系统的软件后门也令一些国内的企业尤其是金融企业担忧。
  人才短缺是限制国内大数据分析企业发展的另一大主因。《哈佛商业评论》曾将数据分析师称为“21世纪最性感的职业”,当下也是稀缺和抢手的职业。鄂维南院士介绍,我国大数据发展最大的优势是庞大的市场,最大的劣势是缺乏人才,“我们国家目前没有建立起非常好的培养大数据人才的机制,在大数据涉及的统计、机械学习等这些领域相比而言更加弱势。”
  滴滴快的CEO程维在讲述如何到硅谷挖人时提到,人才是最大的瓶颈,中国没有那么多的大数据和机器算法的科学家,后来发现硅谷一线的互联网企业,像Uber、里面20%的工程师是华人。“我们派了CTO和一个代表团在硅谷把他们请到一起交流。”程维说。
  鄂维南认为,大数据分析人才的缺乏,当下数据人才市场,不仅有国内和国外的竞争,学术界与企业界也在竞争。要想弥补人才短缺,在大数据领域取得领先地位,需要建立一个开放的,既可以做科研也可以产业化做市场的国际标准的研究平台,或是解决之道。
  数据平台期待全覆盖
  相对大数据分析企业的专业和专一定位,产业覆盖面广的大数据平台类企业,则是在国际大数据大会的企业展厅中,占比最高的行业类型。
  一位参展的大数据平台商人告诉记者,“大数据平台会是大数据行业的基石和中坚。”据了解,,,华为等企业都早已布局大数据平台,更是从2010年就对外开放了其在云计算领域的技术服务。
  然而,大数据平台的准确定义至今仍未有定论。广州工业大学大数据战略研究院副院长谢卫红告诉记者,与数据分析、数据应用不同,大数据平台是随着大数据产业兴起而诞生的新兴事物,目前还没有官方定义。大数据平台的数据规模和具体功用,都还有待界定。
  21世纪经济报道记者采访发现,当下市面上所谓的平台主要有两类,一类是通过各种渠道搜集、整理数据,并为数据应用企业提供有偿数据的数据交易类平台;一类是为了处理企业内部生产运营中产生的海量数据,以存储、运算、展现这些数据为目的的数据处理类平台,其工作内容包括了数据的输入、导入、分析以及加工。
  在整个大数据生态中,大数据平台处于行业中上游位置,是进行数据分析和应用的基础。其中,大数据交易平台由于数据权属和交易规则尚未制定的缘故,发展相对滞后,基本都是2014年后开始投入运营;大数据处理平台则开发较早,商业化程度相对较高。
  目前,大数据处理平台的服务对象以企业为主。除了一些中小型的创业公司,一些大公司也相继推出自己的相关业务,如华为的FusionInsight,和海尔的SCRM(社交化客户关系管理)平台。
  其中,大多数平台主要解决企业特别是大企业内部的数据孤岛问题,将CRM(客户关系管理)、ERP(企业资源计划)、OA(办公自动系统)等业务系统打通,实现跨行业、跨部门的数据分析与整合,以协助企业的运营、管理和决策。
  在这部分数据处理平台中,包括依靠技术模块的变化,提供不同行业平台服务的平台,和针对专门行业的平台;后者数量较少,在交通、建筑和媒体行业都有较为典型的专业化平台出现。
  此外,数据处理平台中还有一类针对特定业务系统的大数据平台,比如海尔的SCRM,就是专门的社交化客户关系管理的数据平台。
  由于大数据平台在大数据产业中的基础性地位,国内的大数据处理平台企业数量相对较多。对其业务性能和服务的评价体系也相应较为完整。
  大数据处理平台供应商,九章云极的CEO方磊称,数据集成能力、存储和计算能力、分析能力、部署能力、运维能力、开发定制能力,和管理协调能力等七大方面的能力,会是厂商在挑选平台服务时的主要尺度和标准。其中前六者形成数据资源挖掘和计算能力闭环,管理协调能力则影响着平台的工作效率。
  然而需求方的要求似乎并没有得到满足。方磊向21世纪经济报道记者透露,在他们与平台需求企业的对接中,“端到端”、在数据处理平台上直接实现数据分析的要求,越来越多。需求方,往往也是数据应用企业,希望平台能够提供一体化、一键式的自动化数据服务。
  在商业价值开放较好的大数据处理平台区块,需求正加速推动着产品的转型。“未来大数据平台和大数据分析的融合会是一种趋势,大数据分析企业会向下渗透到数据收集和整理,大数据平台企业会往数据分析上发展,这种扩张是必然的。”方磊说。
  不过在当下的技术和人才条件下,大多数大数据处理平台,还只能实现基础性的数据分析,和简单的可视化呈现。清华大学数据科学研究院执行副院长韩亦舜,在接受21世纪经济报道记者采访时表示,目前一键式的自动化数据服务,只能在一些数据结构单一的特定领域实现。对于多源异构的数据,想要实现一键式自动化服务,还有很长的路要走。未来的数据平台,实现针对不同行业领域的垂直细分后,可能会在某些行业率先实现突破。
  十项大数据标准制定中
  在业界构想中的完整大数据生态链里,不同人的分类不同,大数据企业的类型也很多。其中必须要提的,就是大数据产业最基础的工作——数据源。一些数据源企业和数据存储系统企业,都已在市场上占据了一席之地。
  目前,由于数据流通尚未形成规模,国内数据源区块中的平台比例较为明显。作为当下仅有的几家号称专门从事数据源业务的公司之一,数据堂搜集线下数据,开展线上业务的市场定位和数据众包、采集加工流通三位一体的“数据银行”的业务模式较有代表性。
  然而,由于行业规则和行业标准缺失、数据的权属不明,当下大量的数据交易是不规范且有争议的。国务院发展研究中心技术经济部副部长田杰棠称,数据交易的前提是产权要清晰,尤其是个人在线活动产生的数据,其产权到底属于个人还是企业,对于整个产业的发展和数据资源的配置都有很大影响。
  数据源企业的发展必然伴随着数据交易,不规范交易、个人隐私界定模糊和数据产权划分不清晰带来的安全担忧,是造成国内专门从事数据源工作的企业数量稀缺的重要原因。
  与数据源区块不同,在大数据存储区块,核心技术的缺失成为了最大的问题。一家参展的厦门数据存储系统开发商负责人告诉记者,国内的数据储存企业拥有自主知识产权的很少,特别在硬件上的技术落后国外更多。
  不过这样的情况正在好转,韩亦舜告诉21世纪经济报道记者,随着近年来硬件开源的兴起,国内在数据存储领域实现自主可控的速度有望加快。
  另外,国内大数据标准化进程也在逐步推进中,困扰大数据行业的瓶颈或将迎来部分解决。
  据中国电子信息标准化研究院技术总监王立建介绍,国家标准委正在着手制定首批共十项大数据标准,分别是大数据术语、大数据技术参考模型、数据交易平台交易数据描述、数据交易服务平台通用功能要求、数据能力成熟度评价模型、多媒体数据语义描述要求、科学数据引用、数据溯源描述模型、数据质量评价指标和通用数据导入接口规范。
  其中前四项处在征求意见稿状态,中间四项已完成草案,最后两项还在草案大纲阶段。另外,大数据标准体系框架也已在征求意见稿阶段。
  随着政策顶层设计的越发清晰和行业标准的逐渐形成,对于大数据企业的未来发展方向,各方也有了不同的判断。
  一些大数据商人认为,长远看单纯从事数据生态某一环节的企业,都存在重大转型压力,特别是底层的数据搜集和挖掘企业,针对不同行业领域的大数据企业将会整合该领域的数据收集、储存和分析业务。
  而另一些大数据交易平台的支持者则认为,大数据行业未来会围绕大数据交易平台,形成纵向细分的垂直行业生态,以及横向产业链精细化分工的网格状发展态势与布局。
  来自业内的预测更为乐观。阿里研究院数据经济研究中心秘书长潘永花表示,根据2014年的Gartner新兴技术曲线显示,大数据已经从炒作高峰,进入5到10年的稳步发展期,2015年大数据已经成为主流技术。
  (编辑:耿雁冰)
  扫一扫,一起坐看风云变幻。扫描下方二维码关注新浪科技官方微信(也可微信搜索:techsina或新浪科技)。
文章关键词:
&&|&&&&|&&&&|&&
您可通过新浪首页顶部 “”, 查看所有收藏过的文章。
,推荐效果更好!
看过本文的人还看过中国电子技术标准化研究院大数据标准化白皮书大数据标准化白皮书指导单位:工业和信息化部软件服务业司 国家标准化管理委员会工业二部编制单位:中国电子技术标准化研究院二零一四年六月 中国电子技术标准化研究院大数据标准化白皮书版权:?2014 年,中国电子技术标准化研究院版权所有。使用声明:未经中国电子技术标准化研究院事先的书面授权,不得以任何方式复制、抄 袭、影印、翻译本文档的任何部分。 中国电子技术标准化研究院大数据标准化白皮书目 录1.前言 ......................................................................................................................... 0 1.1 研究背景 .............................................................................................................................. 0 1.2 研究目标及意义 ................................................................................................................. 0 1.3 编撰单位 .............................................................................................................................. 1 2.大数据基本概念、特征与作用 ............................................................................................. 2 2.1 大数据的基本概念和内涵 .............................................................................................. 2 2.2 大数据的特征 ..................................................................................................................... 3 2.3 大数据的重要作用 ............................................................................................................ 5 3.大数据发展现状 ........................................................................................................................ 8 3.1 国外大数据发展 ................................................................................................................. 8 3.1.1 政府出台计划 ............................................................................................................. 9 3.1.2 工业界大数据研究 ..................................................................................................12 3.2 国内大数据现状 ................................................................................................................14 3.2.1 国内大数据关注焦点...............................................................................................14 3.2.2 地方政府和组织探索大数据应用 ........................................................................16 3.2.3 国内大数据应用实践...............................................................................................24 3.3 大数据发展现状分析.......................................................................................................26 4.大数据技术参考模型和关键技术 .......................................................................................28 4.1 大数据技术参考模型.......................................................................................................28 4.2 大数据核心技术 ................................................................................................................30 4.2.1 数据准备技术 ............................................................................................................30 4.2.2 数据存储技术 ............................................................................................................31 4.2.3 数据平台技术 ............................................................................................................32 4.2.4 数据处理技术 ............................................................................................................33 4.3 大数据安全与隐私 ..........................................................................................................36 5.大数据标准体系 ....................................................................................................................38 5.1ISO/IEC JTC1 SC32 大数据标准化工作情况 .................................................................38 5.2 ISO/IEC JTC1 SG2 大数据标准化工作情况 ..................................................................40 5.3ITU 大数据标准化工作情况 ............................................................................................41 5.4 NIST 标准化工作情况 ......................................................................................................41 5.5 国内标准化工作情况 ......................................................................................................42 5.6 大数据标准体系框架.......................................................................................................43 5.7 大数据标准体系表 ..........................................................................................................45 5.8 近期急需研制标准 ...........................................................................................................49 6.我国大数据工作重点建议 ..................................................................................................52 中国电子技术标准化研究院大数据标准化白皮书6.1 加强大数据相关政策法规研究 ....................................................................................52 6.2 加强大数据核心技术研究 .............................................................................................53 6.3 推动开放数据集建设.......................................................................................................53 6.4 鼓励利用大数据开展服务,创新大数据应用模式 ................................................53 6.5 系统开展大数据标准化工作 .........................................................................................53 7.参考文献 .....................................................................................................................................55 附件调研单位名单(共 74 家) .............................................................................................56 中国电子技术标准化研究院大数据标准化白皮书1.前言 1.1 研究背景大数据1(Big Data)是一场革命,将改变我们的生活、工作和思维方式。继移动互联网、 云计算后, 大数据逐渐成为对于 ICT 产业具有深远影响的技术变革。 大数据技术的发展与应用, 将对社会的组织结构、国家的治理模式、企业的决策架构、商业的业务策略以及个人的生活方 式产生深刻影响。 我国正处于工业化向信息化发展的转型时期,信息的公开、共享与服务成为时代发展的主 题。信息逐渐成为与物质和能源同等重要的资源,以开发和利用信息资源为目的的经济活动迅 速扩大,逐渐占据或超越工业活动在国民经济活动中的地位。大数据的出现是跨学科技术与应 用发展的结果。对于大数据,自然科学家强调网络虚拟环境下对于密集型数据的研究方法,社 会科学家则看重密集型数据后面隐藏的价值与推动社会发展的模式。1.2 研究目标及意义本白皮书力图从应用、技术、产业、标准等角度,勾画出大数据发展的整体轮廓,探索从 应用、技术、产业等维度综合分析大数据标准化工作需求。 本白皮书立足于大数据发展所处的工业社会向信息社会转型的历史时期所独具的政策、 经 济与文化等特点,分析处于初期发展阶段的大数据对于经济、社会、产业的作用和影响;介绍 目前国内、国外主要国家在大数据发展战略、技术与应用方面的布局与实践。 本白皮书从数据生存周期的角度提出大数据的技术参考模型,分析大数据发展的关键技 术,同时抛开其他影响因素,从数据自身的角度提出在不断创新的应用与服务模式下,大数据 的标准体系框架及急需研制的标准项目。1Mayer-Schonberger V, Cukier K N. Big Data: A Revolution That Will Transform How We Live, Work, and Think[M]. Eamon Dolan/Houghton Mifflin Harcourt, 2013 0 中国电子技术标准化研究院大数据标准化白皮书本白皮书的发布旨在与业界分享我们在大数据领域的研究成果、实践经验,呼吁社会各界 共同关注大数据的政策研究、技术投入、标准建设与服务应用,共同推动大数据的发展,提升 社会整体决策与服务管理能力。 此外,我们还组织了国内相关企业、学校和研究机构的从业人员针对大数据应用、产业、 技术与标准化需求进行了问卷调研。总共调研了 28 家高校及科研单位以及 46 家企业(多数为 规模在 100 人以上的中大型企业,以 IT 集成商、软件产品提供商为主,同时也包含了一些传 统行业和电子商务企业,调研单位清单见附件)。回收有效问卷二百余份2。通过对调研数据 的分析,初步形成了对于大数据应用、技术、产业发展以及标准化需求的成果,作为业界共同 研究的基础。1.3 指导单位和参与单位本白皮书的编写得到工业和信息化部软件服务业司和国家标准化管理委员会工业二部的 指导,并且也得到了业内有关产、学、研、用等单位和专家的大力支持。北京航空航天大学计 算机学院、北京大学信息化与信息管理研究中心、北大方正国际集团、京东商城、中国电子软 件研究院、华迪技术有限公司、华为公司、中国农业科学研究院农业信息研究所、北京师范大 学管理学院、华中科技大学、武汉大学软件工程国家重点实验室、东方通、上海计算机软件中 心、中国石油天然气管道总公司、百度、阿里、腾讯公司、浪潮集团、北京华电祥云、中宇万 通、微软中国、甲骨文公司、金蝶公司、IBM 公司等派员参与了本白皮书的编写。2有效问卷数量 204 例。 1 中国电子技术标准化研究院大数据标准化白皮书2.大数据基本概念、特征与作用 2.1 大数据的基本概念和内涵针对大数据,目前存在多种不同的理解和定义。 按照 NIST 发布的研究报告的定义,大数据是用来描述在我们网络的、数字的、遍布传感 器的、信息驱动的世界中呈现出的数据泛滥的常用词语。大量数据资源为解决以前不可能解决 的问题带来了可能性。 按照 Gartner 的定义,大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流 程优化能力的海量、高增长率和多样化的信息资产3。 根据百度百科词条的定义,大数据,或称巨量资料,指的是所涉及的资料量规模巨大到无 法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决 策更积极目的的资讯4。数据规模超出传统数据库软件采集、存储、管理和分析等能力的范畴, 多种数据源,多种数据种类和格式冲破传统的结构化数据范畴,社会向着数据驱动型的预测、 发展和决策方向转变,决策、组织、业务等行为日益基于数据和客观分析做出。 除了学术界、科研界的定义外,我国 IT 学术界和企业对大数据也有自己的看法,通过调 研,我们发现超过一半的受访者认同“新型的数据和分析”,而“新形势的数据应用”和“更 大范围的信息”则分列二、三位,“大量的数据”这一选项仅仅位列第四。由此可见,大量的 受访者已经意识到大数据的重点在于“数据”的分析和应用,而“大”不过是信息技术不断发 展所产生的海量数据的表象而已。(参见图 1)。3引自 Gartner 大数据定义 引自百度百科大数据词条 24 中国电子技术标准化研究院大数据标准化白皮书图 1 受访者对于大数据的认识本报告的观点是大数据代表着数据从量到质的变化过程; 代表着数据作为一种资源在经济 与社会实践中扮演越来越重要的角色, 相关的技术、 产业、 应用、 政策等环境会与之互相影响、 互为促进。从技术角度来看,这种数据规模质变后带来新的问题,即数据从静态变为动态,从 简单的多维度变成巨量维度,而且其种类日益丰富,超出当前技术与工具控制管理的范畴。这 些数据的采集、分析、处理、存储、展现都涉及复杂的多模态高维计算过程,涉及异构媒体的 统一语义描述、数据模型、大容量存储建设,涉及多维度数据的特征关联与模拟展现。然而, 大数据发展的最终目标还是挖掘其应用价值, 没有价值或者没有发现其价值的大数据从某种意 义上讲是一种冗余和负担。2.2 大数据的特征目前,业内对于大数据特征的研究主要集中在“3V”、“4V”两种,归纳起来,可以分为 规模、变化频度、种类和价值密度等几个维度。研究机构 IDC 定义了大数据的四大特征――海 量的数据规模、 快速的数据流转和动态的数据体系、 多样的数据类型和巨大的数据价值, 将 “价3 中国电子技术标准化研究院大数据标准化白皮书值”作为第四个“V”。其他一些机构则将真实性作为第四个“V”。还有学者认为应该将(供 应商,vendor)作为第四个“V”。 本报告对于大数据的特征从数量(Volume)、多样性(Variety)、速度(Velocity)、 价值(Value)以及真实性(Veracity)五个方面进行认识和理解。 数量:聚合在一起供分析的数据规模非常庞大。谷歌执行董事长艾瑞特?施密特曾说,现 在全球每两天创造的数据规模等同于从人类文明至 2003 年间产生的数据量总和。“大”是相 对而言的概念,对于搜索引擎,EB 属于比较大的规模,但是对于各类数据库或数据分析软件 而言,其规模量级会有比较大的差别。 多样性:数据形态多样,从生成类型上分为交易数据、交互数据、传感数据;从数据来源 上分为社交媒体、传感器数据、系统数据;从数据格式上分为文本、图片、音频、视频、光谱 等;从数据关系上分为结构化、半结构化、非结构化数据;从数据所有者分为公司数据、政府 数据、社会数据等。 速度:一方面是数据的增长速度快,另一方面是要求数据访问、处理、交付等速度快。美 国的马丁?希尔伯特说,数字数据储量每 3 年就会翻 1 倍。人类存储信息的速度比世界经济的 增长速度快 4 倍。 价值:尽管我们拥有大量数据,但是发挥价值的仅是其中非常小的部分。大数据背后潜藏 的价值巨大。美国社交网站 Facebook 有 10 亿用户,网站对这些用户信息进行分析后,广告商 可根据结果精准投放广告。对广告商而言, 10 亿用户的数据价值上千亿美元。据资料报道, 2012 年,运用大数据的世界贸易额已达 60 亿美元。 真实性:一方面,对于虚拟网络环境下如此大量的数据需要采取措施确保其真实性、客观 性,这是大数据技术与业务发展的迫切需求;另一方面,通过大数据分析,真实地还原和预测 事物的本来面目也是大数据未来发展的趋势。 在调查过程中,受访者对于大数据特性的关注度如图 2 所示,从高到低依次为多样性、价 值、真实性、数量、速度。4 中国电子技术标准化研究院大数据标准化白皮书图 2 受访者对于大数据特征的关注度从图 2 中我们不难看出,在大数据的几个特征中, “多样性”和“价值”最被大家所关注。 “多样性” 之所以被最为关注, 在于数据的多样性使得其存储、 应用等各个方面都发生了变化, 针对于多样化数据的处理需求也成为了技术重点攻关方向。而“价值”则不言而喻,不论是数 据本身的价值还是其中蕴含的价值都是企业、部门、政府机关所希望的。因此,如何将如此多 样化的数据转化为有价值的存在,是大数据所要解决的重要问题。2.3 大数据的重要作用据资料显示,近年来,甲骨文、IBM、微软、SAP、惠普等公司已经在数据管理和分析领域 投入超出 150 亿美元。据 Gartner 最新预测,大数据产业 2014 年将在全球范围内带来近千亿 美元的 IT 开支;2015 年,大数据将为全球带来 440 万个 IT 岗位。 1)改变经济社会管理方式 大数据作为一种重要的战略资产,已经不同程度地渗透到每个行业领域和部门,其深度应 用不仅有助于企业经营活动,还有利于推动国民经济发展。大数据使经济决策部门可以更敏锐 地把握经济走向,制定并实施科学的经济政策。大数据可以提高企业经营决策水平和效率,推 动创新,给企业、行业领域带来价值。大数据技术作为一种重要的信息技术,对于提高安全保 障能力、应急能力、优化公共事业服务,提高社会管理水平的作用正在日益凸显。增强安全保5 中国电子技术标准化研究院大数据标准化白皮书障能力。在国防、反恐、安全等领域应用大数据技术,能够对来自于多种渠道的信息快速进行 自动分类、整理、分析和反馈,有效解决情报、监视和侦察系统不足等问题,提高国家安全保 障能力。 2)促进行业融合发展 网络环境、移动终端随影而行,网上购物、社交网站、电子邮件、微信不可或缺,社会主 体的日常活动在虚拟的环境下得到承载和体现。 正如工业化时代商品和交易的快速流通催生大 规模制造业发展,信息的大量、快速流通将伴随着行业的融合发展,经济形态的大范围变化。 虚拟环境下,遵循类似摩尔定律原则增长的海量数据,在技术和业务的促进下,跨领域、跨系 统、跨地域的数据共享成为可能,大数据支持着机构业务决策和管理决策的精准性与科学性, 社会整体层面的业务协同效率提高。 3)推动产业转型升级 基于传统架构的信息系统很难应付爆发式增长的海量数据,同时传统的商业智能、搜索引 擎、分析软件,在面对时空多维度、快速变化的海量数据时,也缺少有效地分析工具、方法和 产品。大数据环境下,ICT 产业面临着有效存储、实时分析、高性能计算等挑战,这将对软件 产业、芯片以及存储产业产生重要影响。 信息消费作为一种以信息产品和服务为消费对象的活动,覆盖多种服务形态,多种信息产 品,多种服务模式。当围绕数据的业务在数据规模、类型和变化速度达到一定程度时,大数据 对于产业发展的影响随之显现。 同时, 大数据将促进网络通信技术与传统产业更为密切的融合, 对于传统产业的转型发展, 创造更多价值影响重大。未来,大数据发展将不仅催生软硬件及服务等市场产生大量价值,也 将对有关的传统行业转型升级产生重要影响。 4)助力智慧城市建设 信息资源开发利用水平, 在某种程度上讲代表着信息时代下社会的整体发展水平和运转效 率。大数据与智慧城市是信息化建设的内容与平台,两者互为推动力量。智慧城市是大数据的6 中国电子技术标准化研究院大数据标准化白皮书源头,大数据是智慧城市的内核。仅以智慧交通为例,智慧交通领域的海量数据融合了各类数 据,并以城市交通为主题,在海量变化数据中建立关联关系,找到所需数据的准确信息,并被 及时推送到对象手中,提高了城市管理的精确性,提升了城市居民的幸福感受。7 中国电子技术标准化研究院大数据标准化白皮书3.大数据发展现状 3.1 国外大数据发展大数据发展来源于自然科学、社会科学的技术创新;信息公开、隐私保护、规范管理等的 制度建设;各个应用领域主题下的技术路线、模型建设与工具开发等具体实施方案。为此,国 外发达国家纷纷提出了大数据的规划、计划、政策以及项目,推动大数据为其国民经济和社会 发展服务。 据 IDC 调查分析,目前作为成熟的大数据应用主要集中于欺诈监测、风险管理与商业智能 等领域,细分到对于产业,处理与活动领域的大数据应用如图 3 所示。图 3 大数据技术和服务简单用例图 3 从活动、处理以及产业等三个维度对于大数据技术和服务的相关用例进行了分类。其 中活动维度中包括分析(例如数据挖掘、多维分析、数据可视化)、操作(例如运行一个网站、 处理网络订单)、信息访问(例如基于搜索的信息获取、规范化,以及内容和数据源的访问); 处理维度包括客户关系管理、供应链和运营、政府、研发、信息技术管理和风险管理;产业维 度包括运输行业中的物流优化、零售行业中的价格优化、媒体和娱乐行业中的知识产权管理、8 中国电子技术标准化研究院大数据标准化白皮书石油和天然气行业中的自然资源勘探、制造业中的保修管理、执法中的犯罪预防和调查、银行 业中的欺诈检测、医疗保健行业中的病人治疗和欺诈检测。 对于大数据应用的价值链主要包括三个方面,如图 4 所示: ? 采集与收集:再生老的数据;采集新的数据;提升数据质量。 ? 聚合与整合:实时与批量数据的聚合或整合, 多媒体、跨模态数据的聚合;分发给具 有弹性计算功能的 IT。 ? 消费与应用:商业智能 BI 或数据仓库 DW 的集成;可视化;业务集成。图 4 数据和风险管理中的大数据价值链3.1.1 政府出台计划3.1.1.1 美国2011 年,“总统科学技术顾问委员会(President’s Council of Advisorson Science and Technology)建议”认为大数据相关技术具有重要战略价值,而联邦政府对其研发投资不足。 作为建议的反馈,白宫科技政策办公室发布了《大数据研究和发展倡议》,并组织了大数据高 级监督小组(Senior Steering Group on Big Data)协调和拓展政府在这一重要领域的提升 美国利用收集的庞大而复杂的数字资料提炼真知灼见的能力,协助加速科学、工程领域的创新 步伐,强化美国国土安全,转变教育和学习模式。9 中国电子技术标准化研究院大数据标准化白皮书《大数据研究和发展倡议》提出联邦政府希望与行业、科研院校和非盈利机构一起,共同 迎接大数据所创造的机遇和挑战。 某种程度上, 大数据技术在美国已经形成了全体动员的格局, 并承诺将在科学研究、环境保护、生物医药研究、教育以及国家安全等领域利用大数据技术进 行突破。同时,美国国家科学基金会(NSF)、国家卫生研究院(NIH)、国防部(DOD)、能 源部(DOE)、国防部高级研究局(DARPA)、地质勘探局(USGS)等六个联邦部门和机构承诺, 将投入超过 2 亿美元资金用于研发“从海量数据信息中获取知识所必需的工具和技能”,并披 露了多项正在进行中的联邦政府计划,主要内容如下:美国国家科学基金和美国国家卫生研究 院主要推进大数据科学和工程的核心方法及技术研究,项目包括管理、分析、可视化、以及从 大量的多样化数据集中提取有用信息的核心科学技术; 国防部高级研究局项目主要推进大数据 辅助决策,集中在情报、侦查、网络间谍等方面,汇集传感器、感知能力和决策支持建立真正 的自治系统,实现操作和决策的自动化;美国能源部试图通过先进的计算进行科学发现,提供 2500 万美元基金来建立可扩展的数据管理、分析和可视化研究所。美国地质勘探局通过给科 学家提供深入分析的场所和时间、最高水平的计算能力和理解大数据集的协作工具,催化在地 理系统科学的创新思维。 2012 年 3 月, 美国白宫宣布启动大数据研究和开发, 6 月, 美国国家标准技术研究所 (NIST) 启动了大数据相关研究。 2013 年 6 月, NIST 召开了大数据公共工作组 (Big Data Public Working Group ,BD-PWG)成立会议,并于 9 月启动了大数据定义和数据、通用需求、参考架构、安全 隐私及技术路线图等内容的研究,并提出了《大数据参考架构》报告,受到多方面关注。3.1.1.2 欧盟2010 年 11 月,欧盟委员会提出了“欧盟开放数据战略”,旨在将公共部门搜集和产生的 原始数据通过再利用成为数以万计 ICT 用户依赖的数据材料,同年 12 月正式推进这一战略并 提出有关开放数据战略的多项法律提案,提案指出: “所有来自于公共部门的文件除非受第三 方版权保护外均可用于任何目的(商业或非商业),大部分公共部门的数据都将免费或几乎免 费,强制要求提供通用的且机器可读格式的数据,确保数据的有效再利用,数据开放范围将覆 盖包括图书馆、博物馆、档案馆等在内的更广泛的组织”。10 中国电子技术标准化研究院大数据标准化白皮书“欧盟开放数据战略”将重点加强在数据处理技术、数据门户网站和科研数据基础设施三 方面的投入,旨在欧洲企业与市民能自由获取欧盟公共管理部门的所有信息,建立一个汇集不 同成员国以及欧洲机构数据的“泛欧门户”。 未来,欧盟开放数据战略将重点加强在数据处理技术、数据门户网站和科研数据基础设施 三方面的投入。目前比较成功的应用有“你的议会”(www.itsyourparliament.eu),公民可 以通过该网站了解欧洲议会的选票情况,查看投票记录并投票;英国制药 (www.data.gov.uk/apps/uk-pharmacy) , 通过智能手机帮助市民在英国找到距离最近的药店; 欧洲能源(http://energy.publicdata.eu/ee/vis.html),对欧盟统计局和其他机构提供的 数据进行加工,将欧洲能源消费情况可视化;开放企业(http://www.opencorporates.com), 是关于公司的数据库,目前已包含超过 30 个地区 3000 万家企业的 URL。3.1.1.3 联合国联合国推出了名为“全球脉动”(Global Pulse)的新项目,希望利用“大数据”预测某 些地区的失业率、支出削减或是疾病爆发等现象。 全球脉动技术的目标在于利用数字化的早期预警分析,来提前规划、调整、指导联合国在 全球范围内,针对众多行业领域的援助项目,以提高援助项目完成的精确性和有效性。3.1.1.4 多国联盟合作下的数据开放是目前的潮流,也是大数据应用的前提。2011 年美国、英国、巴西、 挪威、墨西哥、印尼、菲律宾、南非等八国宣布成立“开放政府联盟”(OGP),并发布《开 放政府宣言》,宣言书说:“政府代表公民收集并保存各种各样的信息,公民有权利获取关于 政府活动的各种信息。我们承诺:用可以重复使用的格式,及时主动地向社会开放高质量的信 息,包括原始的数据。” 2011 年 12 月,美国联邦政府宣布将和印度政府共同合作,把现有的 Data.gov 改造成开 源平台,印度将率先移植 Data.gov,作为其中央政府的数据开放平台。11 中国电子技术标准化研究院大数据标准化白皮书英国政府自 2011 年 11 月发布了对公开数据进行研究的战略政策, 同时致力于探索公开数 据在商业创新和刺激经济增长方面的潜力。 英国政府投资支持成立开放式数据研究所 ODI(The Open Data Institute)。未来,英国 政府将通过这个组织来利用和挖掘公开数据的商业潜力,并为英国公共部门、学术机构等方面 的创新发展提供“孵化环境”,同时为国家可持续发展政策提供帮助。 法国政府在 《数字化路线图》 中列出了五项将会大力支持的战略性高新技术, 而 “大数据” 是其重要内容。2013 年 4 月法国政府召开“第二届巴黎大数据大会,”,会上法国经济、财 政和工业部门宣布将投入 1150 万欧元用于支持 7 个未来重点项目。这些项目的目的在于“通 过发展创新性解决方案,并将其用于实践,来促进法国在大数据领域的发展。” 此前,法国软件编辑联盟(AFDEL)曾号召政府部门和私人企业共同合作,投入 3 亿欧元用 于推动大数据领域的发展。AFDEL 认为,未来 5 年内,大数据创造的价值将会达到 28 亿欧元, 同时将会产生 1 万个工作岗位。3.1.2 工业界大数据研究工业界针对大数据分析平台,纷纷推出自己的大数据分析工具,主流的平台和产品如下:3.1.2.1 Google 的大数据分析产品Google 公司作为全球最大的信息检索公司,走在了大数据研究的前沿。面对呈现爆炸式 增加的因特网信息,仅仅依靠提高服务器性能已经远远不能满足业务的需求。如果将各种大数 据应用比作“汽车”,支撑起这些“汽车”运行的“高速公路”就是云计算。正是云计算技术 在数据存储、管理与分析等方面的支持,才使得大数据有用武之地。Google 公司从横向进行 扩展,通过采用廉价的计算机节点集群,改写软件,使之能够在集群上并行执行,解决海量数 据的存储和检索功能。Google 公司大数据处理的几大关键技术为:Google 文件系统 GFS、 MapReduce、Bigtable 和 BigQuery。Google 的技术方案为其他公司提供了一个很好的参考方 案,各大公司纷纷提出了自己的大数据处理平台,采用的技术也都大同小异。12 中国电子技术标准化研究院大数据标准化白皮书3.1.2.2 惠普的 HAVEnHAVEn 平台提供了大量的应用开发接口(API),惠普希望通过 HAVEn 与合作伙伴共同打 造一套完整的大数据分析生态系统,让更多应用解决方案落地到行业。它可以充分利用惠普的 分析软件、硬件和服务,创建新一代为大数据准备的分析应用和解决方案。“HAVEn”这个名 字实际上来源于其各个组件的首字母,即 Hadoop(HDFS)、Autonomy、Vertica、Enterprise Security 以及 nApp(行业解决方案)。可以看出,HAVEn 平台实际上是一个惠普大数据产品 的组合。具体而言,HAVEn 并不是简单的产品堆叠,惠普对其中各个组件的交互与连接都进行 了设计与优化,并提供了统一的框架。HAVEn 平台能够从各种数据源进行集成,分析各种类型 数据,如传统数据仓库、机器生产数据、电子邮件、文本数据以及企业外部的社交媒体数据。3.1.2.3 Teradata日前,全球领先的大数据分析和数据仓库解决方案厂商 Teradata 天睿公司发布了 Teradata Aster 大数据综合分析平台。作为业内首款整合大数据分析平台,实现了将开源 Apache Hadoop 和 Teradata Aster 整合至高度集成和优化的单一平台中。 该平台采用 Teradata Aster 的 SQL-MapReduce 和 Aster SQL-H 专利技术,支持用户透明地访问 Hadoop 平台,为广 大知识型员工提供独特的业务分析功能。该平台预先封装多项即开即用的分析功能,能够在数 小时内快速实现数字营销优化、 社交网络分析、 欺诈侦测以及机器生成数据的分析等。 Teradata Aster 大数据综合分析平台专为满足苛刻的分析需求设计,提供更强的计算能力、更大的内存 容量及更快的数据移动。同市场上其他典型平台相比,该平台的数据吞吐量及分析速度分别提 高 19 倍及 35 倍。Teradata Aster 大数据综合分析平台配备充足的内存和高速宽带互联功能, 能够支持极度密集的复杂分析计算,相比现有其他产品更加简洁。采用 Teradata Aster 大数 据综合分析平台后,用户无需复杂的培训即可使用 MapReduce 和 Hadoop 技术。3.1.2.4 IBM 的 InfoSphere2011 年 5 月,IBM 正式推出 InfoSphere 大数据分析平台。InfoSphere 大数据分析平台 包括 BigInsights 和 Streams,二者互补,Biglnsights 对大规模的静态数据进行分析,它 提供多节点的分布式计算,可以随时增加节点,提升数据处理能力。Streams 采用内存计算方13 中国电子技术标准化研究院大数据标准化白皮书式分析实时数据。InfoSphere 大数据分析平台还集成了数据仓库、数据库、数据集成、业务 流程管理等组件。BigInsights 基于 Hadoop,增加了文本分析、统计决策工具,同时在可靠 性、安全性、易用性、管理性方面提供了工具,并且可与 DB2、Netezza 等集成,这使大数据 平台更适合企业级的应用。比如,BigInsights 提供了一种类似 SQL 的更高级的查询语言。 再如, 除了支持 Hadoop 的 HDFS 存储系统外, BigInsights 还支持 IBM 最新推出的 GPFS SNC 平台,以更好地利用其强大的灾难恢复、高可靠性、高扩展性的优势。企业级产品更重要的是 没有单点故障,GPFS 让整个分布式系统更可靠。Hadoop 本身不提供分析的功能,因此 BigInsights 平台增加了文本分析、统计分析工具。3.2 国内大数据现状国家在推进信息化、电子政务、智慧城市等领域发展与建设,多次强调要重视整体提升信 息资源开发利用水平,强调要关注并重视大数据工作。 目前,国内对于大数据的实质推进更多地处于科研、应用、地方、产业等部门单个探索实 践中。部分信息化发展基础较好的地方,其信息化发展规划及产业部署中已经明确将推动大数 据的发展与应用。3.2.1 国内大数据关注焦点通过调研显示,目前在大数据的行业领域应用关注度上, “智慧城市”、 “政务”以及“公 共服务”位列前三。(见图 5)14 中国电子技术标准化研究院大数据标准化白皮书图 5 各领域的大数据关注度不难看出,目前对于大数据应用有迫切需求的主要集中在政府部门。政府部门在推动社会 管理与公共服务过程中,希望通过对于现有的和正在产生的大量、多媒体的数据进行有效的分 析和应用,支持基础设施建设和提高服务水平。对于“能源”、“教育”、“医疗”、“交通” 等领域的大数据关注度大体相当,体现了大数据应用的广阔性;这些领域在传统业务推进中头 绪比较复杂,数据资源开发水平低,科学化决策难度大,大数据的发展应用在某种程度上增强 了对于复杂形势的分析,加强了对于科学决策的客观数据支持,在这些领域中大数据应用前景 广阔。 在具体技术层面,“信息集成”成为了国内大数据关注的重点。目前大部分单位及受访者 都表示已经利用一个集成的、可缩放的、可扩展的和安全的信息基础设施开始推动大数据应用 实践。同时,在实践过程中对于数据的安全性与治理、大容量的数据存储与管理、基础架构、 相关工具等也是大数据关注的重要技术领域。(见图 6)15 中国电子技术标准化研究院大数据标准化白皮书图 6 大数据技术关注度3.2.2 地方政府和组织探索大数据应用3.2.2.1 北京市北京市经信委牵头,北京市各政务部门共同参与建设了北京市政务数据资源网 (www.bjdata.gov.cn),于 2012 年 10 月推出测试版,目前正在试运行基础上加快制定管理 办法。 目前,北京市已有 29 个部门公布了 400 余个数据包,涵盖旅游、教育、交通、医疗等各 个门类。打开网站主页可以看到,点击量最高的是“土地用途分区”,已被下载 435 次,由北 京市国土资源局提供。 旅行社、 机场班车线路、 星级饭店、 高校信息也是非常热门的下载资源。 北京市政务数据资源网正在面向企业及个人征集 APP(应用程序),一些社会力量开发的 APP 正在进行技术测试和审查。 在该网站可以看到,“游北京”和“爱健康”目前已经可以下载试用。前者可以查阅北京 旅游景点、餐饮、促销信息、洗手间信息等,后者是北京市所有卫生保健设施的指南应用,包16 中国电子技术标准化研究院大数据标准化白皮书括诊所、医院、养老院等信息,用户可以利用这款软件定位附近的医疗设施,查看现场网络图 像。3.2.2.2 上海市上海目前正在加强对大数据领域的深化研究。2013 年,上海启动推进大数据研究与发展 的三年行动计划,重点选取医疗卫生、食品安全、终身教育、智慧交通、公共安全、科技服务 等具有大数据基础的领域探索建设大数据公共服务平台。上海市政府于 2014 年 5 月明确上海 将率先实行政府数据资源向社会开放,出自 28 个市级政府部门、涵盖 11 个领域的 190 项数据 内容将成为今年重点开放对象――从医院床位信息到候诊人数信息,从挖路、占路、封路信息 到停车场库及路侧车位信息,政府大数据“富矿”可供全民开采。国内首个政府数据服务网 www.datashanghai.gov.cn 作为开放统一入口,提供数据查询、浏览、下载等功能。而且,上 海将重点建设政府移动 APP 门户,将各部门开发的各类公众服务 APP“一网打尽”,让市民通 过这个门户方便地检索和下载所需 APP。 此前,上海已启动政府数据资源向社会开放试点,建成“上海政府数据服务网(一期)”, 9 家试点单位开放的数据产品及应用,涵盖地理位置、道路交通、公共服务、经济统计、资格 资质、行政管理等 6 大领域。如市商务委开放了内贸、外贸、外资、外经及综合 5 类数据产品; 市交通委提供了全市搬场企业名录、全市公交枢纽站分布、中心城区公交站点分布、停车场位 置分布等;市住房保障管理局开放了保障房工程信息、房地产开发企业信息、房地产经纪企业 信息等。在此基础上,上海市经信委通过印发《2014 年度上海市政府数据资源向社会开放工 作计划》,规定再开放公共安全、公共服务、交通服务、教育科技、金融服务、能源环境、健 康卫生、文化娱乐等 11 个领域,开放的市级政府部门数量是原先的 3 倍。其中,地理位置类 的数据资源将全面开放,市场监管类数据也成为开放重点,并大力推进交通数据资源开放。根 据市政府总体规划, 政府数据资源开放主体未来将扩展到法律法规授权的具有管理公共事务职 能的组织,以及与人民群众利益密切相关的公共企事业单位。按照年度计划,上海将参照图书 资源的管理模式,力争 3 年内,完成各政府部门信息系统所承载的信息资源分类、目录编制注 册,实现全市政府数据资源目录的集中存储和统一管理,基本摸清政府数据资源家底。17 中国电子技术标准化研究院大数据标准化白皮书同时,上海市经信委正在研究成立大数据局,成立后将推进上海政府层面的数据公开和信 息共享,以解决政府信息资源家底不清、认识不够以及部门间数据信息共享不充分等目前上海 在数据资源管理和运用上存在的问题。3.2.2.3 广东省广东省是国内率先关注并推动大数据的地方之一。2013 年 5 月出台《广东省信息化发展 规划纲要( 年)》,在智慧广东建设任务中,该纲要明确“到 2015 年,全省信息 化总体达到中等发达国家水平,珠三角地区信息化水平迈进世界先进行列。智慧城市建设取得 显著成效,信息基础设施进一步完善,信息技术自主创新体系基本形成,信息技术与传统产业 深度融合,大数据和商业智能试点示范应用成效明显,公共服务和社会管理电子化、网络化全 面普及,信息化有效推动产业转型升级和生产方式转变,信息化成果惠及全省人民。”在构建 信息技术产业体系的发展任务中,该纲要明确“构建面向企业经营管理及社会服务和管理的大 数据挖掘应用创新平台,并以广州、深圳两大超级计算中心为基础构建信息技术研发设计、高 性能计算创新平台。”在推动信息化和工业化深度融合发展任务中,该纲要明确“推进大数据 商业化应用。 充分利用市场机制, 加快推进行业、 企业开展大数据应用。 支持和鼓励行业协会、 中介组织开发深度加工的行业应用数据库,建立行业应用和商业服务大数据公共服务平台,提 供数据挖掘分析和商业智能等大数据应用服务,帮助中小微企业定制各类大数据应用解决方 案。培育数据资源服务重点企业,提高数据资源服务能力。推动大数据在生产过程中的应用, 鼓励企业运用大数据开展个性化制造,创新生产管理模式,降低生产成本,提高企业竞争力。 加快商业大数据创新应用,鼓励企业开展精准营销、个性化服务,提高流通、销售等环节的管 理水平。”在推进城镇管理和服务智慧化任务中,该纲要明确提出“建设智慧城镇运营平台, 建立健全数据采集、交换共享、开发利用相关标准体系,开展智慧城镇大数据应用,推动城镇 创新发展。深入推进智慧城市试点建设,引导全省智慧城市建设有序推进。” 早在 2012 年广东省经济和信息化委员会就开展了“广东省实施大数据战略工作方案”的 研究,立足于坚持以开放共享推动大数据应用,以开发应用带动大数据发展,以大数据发展促 进社会创新, 建成智慧广东。 方案中提出, 为保证大数据战略有效实施, 将建设政务数据中心,18 中国电子技术标准化研究院大数据标准化白皮书并为高等院校和企业等成立大数据研究机构提供支持;将在政府各部门开展数据开放试点,并 通过部门网站向社会开放可供下载和分析使用的数据,进一步推进政务公开。3.2.2.4 陕西省近年来,陕西省电子政务与信息化建设快速推进。一方面,加强了顶层设计和集中部署, 另一方面电子政务公共平台服务体系初步建成。陕西省各级政府及相关部门的信息化服务,不 再需要重复建设网络、机房,不再考虑存储、灾备等因素。 2012 年 12 月陕西省发布了“大数据产业发展战略”与“沣西大数据产业园发展规划”。 陕西省大数据产业发展分为三个阶段: 年是导入期,以建设政务公共平台为支撑, 以政务信息资源建设服务为基础,构建基于高性能计算的大数据计算处理平台和环境;
年是建设期,也是战略机遇期,根据人口、林业、社情民意调查分析、社会管理与 服务、 金融等领域对大数据处理需求, 承接其他国家有关部委和央企数据中心或灾备中心落户, 形成大数据产业洼地, 将全国人口信息处理与备份中心落户西咸新区作为陕西发展大数据产业 的重要机遇; 年是成长期,围绕国家基础数据的上下游流入,形成以政务大数据服 务产业为核心的高黏性信息服务产业生态。到 2017 年,建成以西咸新区为核心的国家级大数 据处理与服务产业集群,成为国家政务信息资源的汇集地、社会信息资源的集散地。 沣西大数据产业园选址位于西咸新区信息产业园内,总占地约 5 平方公里,拟分三大板块 推动大数据产业发展。第一板块为数据基础层产业集聚区,第二板块为软件开发和信息服务集 聚区,第三板块为预留拓展区,作为未来信息产业持续增长的重要保障。目前中国移动、中国 电信、中国联通三大运营商以及全国人口数据处理与备份(西安)中心项目已经入区,产业集聚 初具规模。“沣西大数据产业园发展规划”以“数据沣西、智慧西咸、备份中国、物联世界” 为目标,以实现数据的“规模化集中吞吐、深层次整合分析、多领域社会应用、高效益持续增 值”为方向,大力发展数据存储、呼叫中心、IDC 中心、灾备中心、数据交换共享平台等业态, 积极创新商业模式。园区建设划分为三个阶段: 第一阶段( 年)为培育期,即基础网络和数据中心建设期。本阶段主要依托四 大运营商数据中心、基础网络层的建设,构建海量存储和高速传输网络,为大数据产业发展提19 中国电子技术标准化研究院大数据标准化白皮书供基础和保障。同时,全力引进人口信息、自然资源和空间地理信息、法人单位数据、宏观经 济数据等国家基础、 专有的数据资源存储与服务中心, 数据灾备基地和国家超级计算中心落户, 在业内举起大数据处理与信息服务产业的旗帜,到 2015 年底完成固定资产投资 100 亿元,初 步建成大数据产业发展的网络传输平台和基础信息资源集聚区。 第二阶段( 年)为成长期,引进龙头企业,培育数据分析企业。制定政策机制, 完善园区规划,构建宽松发展环境,全力引进微软、IBM、惠普、谷歌、百度、阿里巴巴、腾 讯、世纪互联等数据存储、分析和应用企业入园,集聚一批国内外龙头企业的研发总部、技术 中心和高端制造部分,重点培育一批数据分析企业。到 2017 年底累计完成固定资产投资 200 亿元、实现产值 200 亿元,形成相对完整的数据服务产业集群,建成“陕西大数据处理与服务 产业基地”,力争率先建成数据应用示范区,推动园区进入国家级信息产业基地行列,实现产 业和城市的优化升级。 第三阶段( 年)为成熟期,整合数据资源,形成以数据为基础的信息服务产业 特色。依托“云计算”和“物联网”等着力点,进一步整合多领域数据资源,探索以数据资源 为基础的信息服务产业发展模式,研究和规范数据资源的应用、范围和权限等,为信息服务产 业大发展奠定基础,引领社会化信息服务模式的全面提升。到 2020 年底实现产值 500 亿元, 聚集各类人才 5 万以上,使沣西新城成为国家级的信息产业园和大数据处理中心。20 中国电子技术标准化研究院大数据标准化白皮书图 7 沣西大数据产业园发展规划图3.2.2.5 贵州省贵州省也在积极布局大数据产业。从 2013 年开始,贵州发力大数据产业布局。中国电信、 联通、移动三大电信运营商数据中心在贵州开工建设、中关村贵阳科技园成立、富士康第四代 产业园落户等等一系列大手笔,正助推贵州迈上“云端”,成为发展大数据产业的黄金宝地。 从 2013 年下半年开始,三大电信运营商在贵安新区分别建设的全国性数据中心,计划总 投资 100 多亿元,总规模将超过 10 万个机柜,服务器将超过 200 万台。数据中心建成后,将 形成超过 2500PB 的裸容量存储能力,730 亿 TPCC 计算能力,可为大数据提供巨大存储服务和 计算服务,将为新区加快大数据及其关联产业发展奠定坚实基础。三大运营商的数据中心在贵 安新区相继建成后,将使贵阳周边特定区域快速集聚 20 万―30 万的机架、百万台的服务器, 数据存储规模可达 EB 以上,随着大数据产业持续发酵,将形成一个千万服务器集群的数据中 心基地,是国内乃至全球最大的数据聚集地之一。 2013 年 3 月 1 日,贵州?北京大数据产业发展推介会在北京举行,大数据产业联盟与贵 州省政府签订合作框架协议,共同推动大数据产业的发展。其后两天,中关村贵阳科技园清镇 园招商引资推介会在京举行,16 个项目在推介会上成功签约。2013 年 9 月 8 日,“中关村贵21 中国电子技术标准化研究院大数据标准化白皮书阳科技园”揭牌,为贵阳市发展新一代信息技术产业提供重要支撑,也为大数据产业的发展提 供强大支撑。 2013 年 10 月,富士康(贵州)第四代绿色产业园一期项目在贵阳市贵安新区开工。 步入 2014 年,贵州在大数据产业持续发力。2014 年 3 月,贵州省颁布了《关于加快大数 据产业发展及应用若干政策的意见》 和 《贵州省大数据产业发展应用规划纲要 ( 年)》 , 抛出了 30 条鼓励措施,明确从今年起连续 3 年,省和贵阳市、贵安新区每年各安排不少于 1 亿元资金,用于支持大数据产业发展及应用。 2014 年 6 月底,贵州省大数据产业研究院将在贵州大学开工建设的消息在贵州省大数据 产业发展应用研究院研讨会上发布。该研究院由贵安新区管委会、泰豪集团有限公司、贵州大 学等联合建设, 建设总经费 15000 万元, 由研发大楼、 综合办公楼、 产业孵化楼和公寓等组成, 实行理事会领导下的院长负责制。 2014 年 7 月 11 日,云上贵州?大数据国际年会论坛举行,论坛围绕“大数据时代的产业 变革――融合创新、绿色跨越”的主题,采取“主题演讲、高峰论坛、媒体活动、参观调研” 相结合的形式,邀请国家部级领导、专家院士、企业家代表等,共同探讨大数据产业发展面临 的机遇与挑战、趋势与未来,共同研究贵州大数据产业发展的方向和路径选择。同时,正式启 动了贵州省大数据产业联盟。 此外,贵阳市政府将与北京云基地共同建设贵阳云基地,联合完成贵阳市云计算产业发展 规划,启动贵阳云计算产业创业投资基金、云计算设备生产基地、云计算创新孵化基地、国际 云服务数据中心基地、电子政务云示范等项目的建设。到 2016 年聚集 50 家以上云计算企业, 形成服务器年产值 50 亿元,云计算应用产值 10 亿元。3.2.2.6 产业联盟各地方结合其经济、技术、产业等发展需求,以产业联盟等形式推动大数据发展。 2012 年 12 月 13 日,中关村大数据产业联盟是成立。联盟成立宗旨是:把握云计算、大 数据与产业革新浪潮带来的战略机遇,聚合厂商、用户、投资机构、院校与研究机构、政府部22 中国电子技术标准化研究院大数据标准化白皮书门的力量,通过研讨交流、数据共享、联合开发、推广应用、产业标准制定与推行、联合人才 培养、业务与投资合作、促进政策支持等工作,推进实现数据开发共享,并形成相关技术与产 业的突破性创新,产业的跨越式发展,推动培育世界领先的大数据技术、产品、产业和市场。 联盟主要会员单位包括: 中国宽带资本、 亿赞普 (北京) 科技有限公司、 天云融创数据科技 (北 京)有限公司、北京友友天宇系统技术有限公司、百度在线网络技术(北京)有限公司、北京 东方国信科技有限公司、北京拓尔思信息技术有限公司等。联盟主要工作包括承接政府部门的 相关大数据方面的产业课题研究项目、组织相关大数据产业国际会议、大数据专业书籍的编著 及出版、组织大数据培训项目开发、组织联盟成员进行政府项目申报、联盟间的合作、大数据 项目孵化及标准研究、推动联盟间的国际合作和搭建数据市场服务平台。 2013 年 3 月 28 日深圳市大数据产业研联盟成立。发起成立联盟的 16 个单位主要包括: 中科院深圳先进技术研究院、国家超级计算深圳中心(深圳云计算中心)、深圳大学、清华大 学深圳研究生院、深圳市南山科技事务所、金蝶国际软件集团有限公司、华为技术有限公司、 宇龙计算机通信科技(深圳)有限公司、华大基因、腾讯公司等。该联盟立足于发挥深圳高新 技术研究和产业化优势,发挥产业联动作用,促进同行业间信息沟通、业务合作、资源共享、 优势互补,促进大数据产业链的形成。 2013 年 6 月,山东农业大数据产业技术创新战略联盟成立。包括 6 个省直厅局,2 所农业 高校,2 家科研单位,还有 11 家计算机和信息技术、农业产业方面的国内知名企业作为联盟 的成员。这个由政府、高校、科研单位、企业组成的联盟将通过加强对农业相关信息和数据的 分析研究,为政府决策、产业发展提供更多的服务和支持。联盟成员包括:山东省科技厅、教 育厅、农业厅、林业厅、国土资源厅、水利厅、省畜牧局、农机局等政府部门,中国测绘科学 研究院、山东省农科院、山东农业大学、青岛农业大学等科研单位和高校,以及龙信数据(北 京)有限公司、浪潮集团、山东金正大生态工程股份有限公司、山东登海种业股份有限公司等 国内企业。与农业相关的信息、数据来源十分广泛,包括气象、土地、水利、农资、农业科研 成果、动物和植物生产发展情况、农业机械、病虫害防治、生态环境、市场营销、食品安全、 公共卫生、农产品加工等诸多环节。这里更为重要的是农业大数据的应用。联盟将致力于成员 间的沟通与合作,以联盟为沟通与合作平台,共同围绕农业大数据产业技术创新的关键问题,23 中国电子技术标准化研究院大数据标准化白皮书加强合作,联合攻关;加强联盟创新资源的整合与共享,强化创新人才培养机制创新,积极推 进大数据研究的学科建设; 探索建立互利互惠、 富有生命力、 符合市场化和产业化的运行机制; 积极开展农业大数据的示范推广,为政府部门科学决策提供参考。3.2.3 国内大数据应用实践大数据在国际上已经有了很广泛的应用,并带来了巨大的经济效益。国内大量企业纷纷意 识到,随着大数据相关技术的不断发展,传统的商业模式将被颠覆,新的商业生态将形成,而 且随着价值链各方对业务模式和盈利模式的创新,新的商业生态将在不断演化中完善。因此各 个企业纷纷开展自己的大数据布局。 目前大数据在国内各行各业也得到了广泛的应用。包括电子地图,电子商务、电信、互联 网、媒资、高性能计算、金融等行业和领域都有应用。本报告针对国内大数据在地图数据,电 子商务和科学研究领域的典型应用案例进行了分析。3.2.3.1 地图数据领域高德地图作为数字地图、导航和位置服务解决方案提供商,掌握了大量的行业运营车辆 GPS 数据,以及高德用户数据,并与各城市交管部门合作,掌握了众多交通信息数据。 高德和阿里巴巴开展了数据领域的共享合作。在数据交换方面,两家公司拟联合建立数据 库系统,高德提供地理位置、交通信息、兴趣点信息(point of interest, POI)以及用户数 据等,阿里巴巴则分享其电商平台如淘宝、天猫上商家的地理位置信息以及其他基于网络的地 理位置信息从而解决两家公司间各自数据来源领域的不同所导致的数据单一等问题。 通过进行 充分有效的数据共享交换,使得两家公司的数据资源都得到了充分的补充和扩展,为之后进一 步的数据挖掘和分析提供了一个良好的环境。两家企业未来将共建大数据服务体系,高德拥有 基础的地图和导航数据,阿里巴巴在电子商务尤其是商户信息方面非常强大,其电子商务平台 上每天有上千万商户交易、物流配送等信息,未来两家企业会把各自的数据融合、匹配,建立 大数据服务体系。两家在数据服务上与其他传统的技术厂商之间将产生巨大的差距,其合作优 势将会很快在服务中得到展现。24 中国电子技术标准化研究院大数据标准化白皮书除与阿里巴巴的合作之外,高德地图还与嘀嘀打车、团 800、大众点评、携程、丁丁优惠、 订餐小秘书等第三方资源进行合作。通过与这些第三方资源的数据开放和共享,一方面提高高 德地图本身的数据来源和储备,为其服务提供更加有力的支持。同时高德地图也将其自身的数 据与这些企业进行共享,从而带动这些企业相关业务的开展。3.2.3.2 电子商务领域拥有十年电商经历的京东积累了非常多的有价值的数据, 京东已经吸引了一大批非常有质 量的用户,上亿用户的数据对于任何一家电商来说,都具有一定的价值。 目前京东将其交易、营销、供应链、仓储、配送、售后和 IT 等七大系统所产生的数据, 通过其数据平台全面开放。提供超过 500 个 API 的调用,用户可以通过调用其提供的 API 来获 得在京东大数据平台上的相关数据,从而为其相关的应用提供便利。目前京东数据平台的开放 API 的日均调用量超过了 2 亿次,合作的 ISV(Independent Software Vendors 独立软件开发 商)500 多家,注册的个人用户达到了 3 万人次。为一万余家商户提供了服务。 京东作为国内知名的电子商务平台, 其数据服务的主要对象就是在其平台上进行销售的商 户和购买商品的客户。因此京东提供的数据服务,重点集中在以下几个方面。 1)精准营销 几乎所有的电商企业都会基于用户的购买行为做精准营销,主要方式是 E-mail、短信等。 网站推介系统也是一种较为隐蔽的营销方式。京东依靠大数据进行精准营销,最重要的是用户 建模。 2)优化供应链 京东的很多商品都是自动补货,系统会根据销售情况和市场预期,依靠预测模型,在库存 量达到某一个阀值时自动生成订单发给供货商。一些复杂的因素会被去除掉,例如团购等,以 保证预测模型的准确。 大数据也被应用在物流配送领域。京东会分析物流人员、仓库以及用户之间的地理关系, 为物流人员提供最优配送路径,提高配送速度,提升用户体验。25 中国电子技术标准化研究院大数据标准化白皮书3)智能网站 基于大数据挖掘和分析,网站将变得越来越智慧。一些商品具有重复购买的特点,例如牙 膏,购买之后在可预期的一段时间内将会用完。京东会分析此类商品用户两次购买之间的平均 时间,在这个时间到来之后,推介系统有可能会给用户推介相应的商品,提升用户的体验,提 高商品的转化率。3.2.3.3 科学研究领域中国科学院计算机网络信息中心研发了中科院科学数据库。截止到 2010 年底,科学数据 资源超过了 150TB,提供在线服务的科学数据资源超过 100TB。数据资源涵盖物理、化学、地 球科学、生物学、材料科学、能源科学、信息科学等多个学科领域;十二五期间的目标是形成 开放共享、 服务创新的国家级科技数据中心, 为我国科技发展提供强大和持续的数据基础设施。 此外,还开发了提供推送最新论文、专利和项目信息的科技信息服务,提供地理空间数据云等 开放数据集,目前内容尚在完善过程中。3.3 大数据发展现状分析从国际上看,大数据方面的工作主要集中在以下 4 个方面:一是政府层面,主要是提供政 策导向,推动政府数据、科学数据开放,为大数据发展提供政策支持和可信数据来源;二是研 究机构利用政府资金,开展科学数据、论文等开放数据集建设,并开展数据集间互操作方面的 研究;三是 Google 等公司研制了分布式数据处理平台等产品,为大数据发展提供技术和产品 支撑;四是标准化方面,目前最为实质性的是 ISO/IECJTC1 成立了大数据研究组,由美国 NIST 牵头, NIST 系统地开展了大数据架构、 数据、 安全需求等方面的研究, 研究成果将贡献至 JTC1。 从国内情况来看,多个地方政府提出大力发展大数据的政策导向,在北京市率先开放了政 府数据资源;中国科学院计算机网络信息中心研发了科学数据库等开放数据集;阿里利用拥有 的大量商业数据为基础,进行统计、分析和挖掘,对外提供数据服务;人民大学等研究院所和 百度、阿里等公司正在开展大数据处理技术和平台研制工作;在标准化方面,全国信息技术标 准化技术委员在充分调研基础上,提出了技术体系参考模型和标准体系框架,提出了术语、体26 中国电子技术标准化研究院大数据标准化白皮书系结构、数据表示、非结构化数据、数据质量、科学数据集等方面标准,其中多项标准已经立 项。 从大数据与相关技术的关联关系上来看,互联网、物联网、云计算等技术的发展为大数据 提供了基础,互联网、物联网提供了大量数据来源;云计算的分布式存储和计算能力提供了技 术支撑;而大数据的核心是数据处理。其中传统的数据处理技术经过演进依然有效,新兴技术 还在不断探索和发展中。 从大数据商业模式上来看,大数据时代,不断涌现出围绕大数据、利用大数据的新产品形 态、新业务模式。其中,“数据租售”即通过出售原始的业务数据或者是经过初步处理分析的 数据来获取直接的利益,以商品化的数据应用创造了新的商业模式。百度游戏通过搜集整理网 络游戏用户的搜索需求和搜索热点,建立完备的用户行为数据库,提供给上游的游戏运营商, 创造了数据服务收入,成为在搜索引擎领域中将数据支持服务变为主要盈利模式的成功案例。 阿里巴巴正在研发的数据仓库,以阿里巴巴拥有的大量商业数据为基础,进行统计、分析和挖 掘,形成规范的实体明细数据和指标数据,对外服务。其中, “魔方”是淘宝网成立的专门用 于提供数据服务的机构,为商家提供行业分析数据,从中获取利益。此外,科学机构、政府机 构提供的数据集也成为可信的重要数据来源。 大数据的发展目前急需解决三方面的问题:一是提供处理大数据技术能力的平台;二是需 要明确大数据生态环境中各个角色的权利、义务,解决数据开放和共享过程中的产权保护、权 限管理和隐私保护等问题;三是需要建立可管理维护、可信、易于互操作的数据资源集,这是 大数据发展的初步成果,为大数据处理、应用和进一步发展提供基础,也是我国的重要信息资 源。其中第一个问题是技术问题,后面两个问题既是技术问题,也是管理问题。27 中国电子技术标准化研究院大数据标准化白皮书4.大数据技术参考模型和关键技术 4.1 大数据技术参考模型大数据作为一项新兴技术,目前尚未形成完善、达成共识的技术体系。本章结合 NIST 和 JTC1/SC32 的研究成果,结合我们对大数据的理解和分析,提出了大数据技术参考模型。图 8 大数据技术参考模型图大数据技术参考模型表示了通用的、 技术无关的大数据系统的逻辑功能模块以及模块之间 的互操作接口(如:服务)。这些被称为“提供者”的模块代表了大数据生态系统中的功能角 色,表明他们提供或实施大数据系统中特定技术的功能。 大数据技术参考模型基于代表大数据价值链的两个维度组成:信息流(垂直维)和 IT 集 成(水平维)。在信息流维度上,价值通过数据采集、集成、分析、使用结果来实现。在 IT 维度上,价值通过为大数据应用的实施提供拥有或运行大数据的网络、基础设施、平台、应用28 中国电子技术标准化研究院大数据标准化白皮书工具以及其他 IT 服务来实现。大数据应用提供者模块是在两个维的交叉点上,表明大数据分 析和其实施是为两个价值链上大数据利益相关者提供的特定价值。 五个主要的架构模块代表在每个大数据系统中存在的不同技术角色:数据提供者、数据消 费者、大数据处理提供者、大数据框架提供者、系统协调者。另外两个架构模块是安全隐私和 管理,代表能为大数据系统其他模块提供服务和功能的构件。这两个关键功能极其重要,因此 也被集成在任何大数据解决方案中。 此架构可以用于多个大数据系统组成的复杂系统, 这样其中一个系统的大数据使用者可以 作为另外一个系统的大数据提供者。 “数据”}

我要回帖

更多关于 什么叫大数据分析 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信