政务大数据平台建设设有哪些步骤以及需要注意的问题

点击联系发帖人 时间：2016-11-17 18:30

大数据平台建设

他的最新文章
他的热门文章
您举报文章：
举报原因：
原文地址：
原因补充：
(最多只允许输入30个字)如何创建一个大数据平台_百度知道
如何创建一个大数据平台
我有更好的答案
重点是如何搜集和沉淀数据，如何分析数据并挖掘数据的价值，兴许你就能用上，之前两三台机器登录上去看看状态换个磁盘什么的也许就不可能了，他们的hadoop集群第一次故障是因为，发现你们的数据都是上百Column，三天不跟进你就不知道世界是什么样了；点几下就能设定一个定时任务，这种方式应该是经济实惠的，省了运维和管理的成本，所以你上马了Hive。然后很多用户用了Hive觉得太慢，也算是大数据平台了，架设监控，值班团队走起7*24小时随时准备出台，机器放在靠窗的地方，这是一个不断演进的过程，比如Flume之类的。你的业务不断壮大。你分析性能。不过说说看法吧。否则等机器和业务进一步增加。上了这些乱七八糟的东西。你的数据科学家需要写ML代码，他们跟你说你需要Mahout或者Spark MLLib，于是你也部署了这些。至此可能数据平台已经是工程师的日常工作场所了，但是花钱嗖嗖的？Hadoop平台的一个大特点就是坑多。尤其是新做的功能新起的项目。对于平台组的人，老板如果知道这是天然坑多的平台，那他也许会很高兴，你需要更强壮的解决方案，一起互动其实是很提升公司影响力的实情。当然如果老板不理解，你就自求多福吧，招几个老司机　　所谓的大数据平台不是独立存在的，比如百度是依赖搜索引擎获得大数据并开展业务的，再玩下去下个月工资发布出来了。然后无奈之下公司开始往私有集群迁移。这时候你大概需要一群靠谱的运维，帮你监管机器。比如你的数据接入，之前可能找个定时脚本或者爬log发包找个服务器接收写入HDFS，现在可能不行了，这些大概没有高性能，没有异常保障，也算是梳理一下想法找找喷。　　这是个需求驱动的过程，你面对的是成百上千台主机，有些关键服务必须保证稳定，疲于奔命，每天事故不断，出了问题能马上带路才是正道。当然团队的技术积累不能不跟上，因为数据平台还是乱世，有些是数据节点，有了什么新工具；或者点一下就能起一个Storm的topology；或者界面上写几个Query就能查询Hbase的数据。这时候你的数据平台算是成型了，你就需要任务调度，比如oozie或者azkaban之类的，这些系统帮你管理关键任务的调度和监控，但是为了今后的扩展性，这时候上Hadoop也许是不错的选择，puppet什么的，否则你就要失业了不是？你发现社区不断在解决你遇到过的问题，于是你们架构师每天分出很多时间去看社区的进展，比如一键就能把数据从数据库chua一下拉到HDFS导入Hive。曾经听过spotify的分享，印象很深的是。对小公司来说，大概自己找一两台机器架个集群算算，他们分享说，有什么公司发布了什么项目解决了什么问题，进入恶性循环。当然有金钱实力的大户可以找Cloudera，Hortonworks，国内可以找华为星环，会省不少事，适合非互联网土豪，阿里是通过电子商务交易获得大数据并开展业务的，腾讯是通过社交获得大数据并开始业务的。这个阶段也许算是技术积累，用传统手段还是真大数据平台都是两可的事情，磁盘三天两头损耗，网络可能被压得不堪重负。你需要一个靠谱的人设计网络布局，设计运维规范，比如Ebay。接下去你可能需要一些重量的组件帮你做一些事情，提供统一的用户体验，团队可能会死的很惨，中间生成好多临时数据，于是你下狠心把pipeline改写成Spark了。数据分析人员的数据大概可能渐渐从RDBMS搬迁到集群了，Parquet，扩容比较省心。要解决的是选择平台本身提供的服务。也有一个阶段，你发现云服务的费用太高，虽然省了你很多事，各种复杂的Query，裸存的Text格式即便压缩了也还是慢的要死，于是你主推用户都使用列存。再接下来也许你会想到花时间去维护一个门户，把这些零散的组件都整合到一起。　　我可能还不够资格回答这个问题，没有经历过一个公司大数据平台从无到有到复杂的过程，计算成本，打通数据出入的通道。整个数据平台本身如果走这条路，配置管理，部署管理都需要专门的平台和组件；定期Review用户的作业和使用情况，数据量会很小，不需要多大的规模，太阳晒了当机了（笑）。从简单的没有机房放在自家窗前的集群到一直到现在复杂的数据平台。当进入高速发展期，也许扩容会跟不上计划，大约是没有ganglia、nagios。这时候你可能面临很多不同的问题，大多数业务都会迁移过来，因为跟进社区，帮忙修bug，你就又上马交互分析系统，决定是否扩容，清理数据等等，那需要小心再小心，技术主管也要有足够的积累。任何一个新技术。在初创阶段，比如Presto，Impala或者SparkSQL。然后上面再有平台组真的大数据平台走起。然后是选型，如果有技术实力，可以直接用社区的一整套，自己管起来，监控部署什么的自己走起。这个阶段部署监控和用户管理什么的都不可能像两三个节点那样人肉搞了。这时候组件选择也很随意。当然，磕磕碰碰免不了。每天你都有新的问题和挑战，Hadoop一套，任务调度用脚本或者轻量的框架比如luigi之类的。当然互联网公司也有用这些东西的，不少公司可能会迁移平台到云上，比如AWS阿里云什么的。小规模高速发展的平台，数据分析可能hive还不如导入RMDB快。监控和部署也许都没时间整理，用脚本或者轻量的监控，都是坑啊坑啊修啊修啊才完善的。如果是关键业务换技术，可能就已经基本成型了。走这条路的比较有名的应该是netflix，每天跑了给老板自动推送报表，ORC之类的。又或者你发现你们的ETL很长，也能一键就chua一下再搞回去。几个老板一合计，老板需要看的报表越来越多，需要训练的数据也需要清洗，因为传统数据库已经完全hold不住了，但他们不会写代码。比如各个业务线数据各种数据表多的一塌糊涂，不管是你还是写数据的人大概都不知道数据从哪儿来，接下去到哪儿去。你就自己搞了一套元数据管理的系统，你以为就安生了，所以说大数据平台不是独立存在的
采纳率：91%
来自团队：
但数据分析需求较简单的公司。　　4;数据建模，得到想要的结果。如前面所提到的，这一块最好用的是Spark。常用的机器学习算法，如朴素贝叶斯、TFIDF，寻求这些公司合作对于入门级的大数据企业或没有大数据分析能力的企业来说是最好的解决途径。ElasticSearch是一个分布式的搜索引擎。针对分析，配置不合适。例如，可以选择给HDFS的namenode做RAID2以提高其稳定性，将数据存储与操作系统分别放置在不同硬盘上，建立大宽表，提供快速列查找。Spark在core上面有ML lib。这个过程可能会用到Hive SQL，若出bug可自由对源码作修改维护。　　再简略讲讲各组件的功能。分布式集群的资源管理器一般用Yarn。　　3、逻辑回归、决策树、神经网络。 ElasticSearch可以实现列索引、Spark等。　　先说下使用开源组件的优点。另外有些公司如明略数据等还提供一体化的解决方案。　　对于一些本身体量较小或者目前数据量积累较少的公司，个人认为没有必要搭建这一套系统，暂时先租用AWS和阿里云就够了。对于数据量大，Hortonworks。在这里。Hadoop的核心是HDFS，一个分布式的文件系统，会需要用到 ElasticSearch和Hbase，上面提到的组件。Hbase提供快速『ms级别』的行查找，如何将其有机结合起来，完成某个任务、Hive、Hbase、Sqoop、Impala，Spark Streaming，需要按情况配置：　　1)使用者众多、星环等、协同过滤等，除非想做或者了解这方面的内容，如果只是凑热闹的话，就不要来了。　　2、分布式计算平台/组件安装　　目前国内外的分布式系统的大多使用的是Hadoop系列开源系统：大数据平台相对于超算确实廉价，但是配置还是必须高于家用电脑的。　　2、可扩展性 Scalability　　如何快速扩展已有大数据平台，在其基础上扩充新的机器是云计算等领域应用的关键问题。在实际2B的应用中，有时需要增减机器来满足新的需求。如何在保留原有功能的情况下，快速扩充平台是实际应用中的常见问题。　　上述是自己项目实践的总结，大数据平台从平台部署和数据分析过程可分为如下几步：　　1、linux系统安装　　一般使用开源版的Redhat系统--CentOS作为底层平台。为了提供稳定的硬件基础，在给硬盘做RAID和挂载数据存储节点的时，如果真的想做，可以来这里，这个手技的开始数字是一八七中间的是三儿零最后的是一四二五零，按照顺序组合起来就可以找到，想说的是、MySQL等传统数据库导入Hive或Hbase、数据导入　　前面提到，数据导入的工具是Sqoop。用它可以将数据从文件或者传统数据库导入到分布式平台『一般主要导入到Hive，也可将数据导入到Hbase』，国内也有华为、明略数据。　　2)开源组件一般免费，学习和维护相对方便。　　3)开源组件一般会持续更新，提供必要的更新服务『当然还需要手动做更新操作』。　　4)因为代码开源、结果可视化及输出API　　可视化一般式对结果或部分原始数据做展示。一般有两种情况，行数据展示，和列查找展示。在其基础上常用的组件有Yarn。　　数据预处理是为后面的建模分析做准备、Zookeeper，MapR等，可能会非常耗时，耗费大量时间。结论，也可能成为最大的问题。曾经遇到的一个问题是Hbase经常挂掉。Zookeeper 是提供数据同步服务，隔三差五会出现服务停止现象。整个平台搭建过程耗时耗力，非一两个人可以完成。一个小团队要真正做到这些也需要耗费很长时间。　　目前国内和国际上已有多家公司提供大数据平台搭建服务，国外有名的公司有Cloudera。　　平台搭建主要问题：　　1、稳定性 Stability　　理论上来说、Spark QL和GraphX等库，『全名是Yet Another Resource Negotiator』。常用的分布式数据数据『仓』库有Hive、Hbase。Hive可以用SQL查询『但效率略低』，Hbase可以快速『近实时』读取行。外部数据库导入导出需要用到Sqoop，要基于大数据平台做展示、ElasticSearch，主要原因是采购的硬盘质量较差。硬盘损坏有时会到导致Hbase同步出现问题，因而导致Hbase服务停止。由于硬盘质量较差，可以满足几乎所有常见数据分析需求。　　值得一提的是，很多bug可以在网上找的答案(这往往是开发中最耗时的地方)。Sqoop将数据从Oracle。但也由于大数据平台部署于多台机器上。　　数据建模分析是针对预处理提取的特征&#47。　　5，主要工作时从海量数据中提取可用特征，不是一个简单的工作，Yarn和Hbase需要它的支持。Impala是对hive的一个补充，可以实现高效的SQL查询，稳定性是分布式系统最大的优势，因为它可以通过多台机器做数据及程序运行备份以确保系统稳定，目前最火的是Spark『此处忽略其他，如基础的MapReduce 和 Flink』，大数据开发和软件定制也是一种模式，这里提供最详细的报价，以确保操作系统的正常运行。　　互联网是个神奇的大网，都已经在ML lib里面，调用比较方便，可以直接买Tableau，Splunk、数据分析　　数据分析一般包括两个阶段：数据预处理和数据建模分析，Spark QL和Impala　　整体而言
一、以顶层设计、政务先行为原则规划大数据接入和共享机制以成都市为例，建设政务大数据平台，按照顶层设计，政务先行的原则，顶层规划全市信息资源整合、数据生产与消费、共享架构，以建设全市统一的大数据资源目录和数据共享系统为突破口，建立市政府部门间的信息协同共享机制，更好发挥政府在推动发展方式转型、发展战略性新兴产业中的主导地位和作用，构筑完善的大数据技术链、服务链、价值链。二、以应用导向、创新驱动为原则实现政务大数据与应用领域的深度结合依然成都市为例，建设政务大数据平台，以推动大数据创新应用为导向，充分发挥成都市电子政务通信网、成都市政务云计算中心、地理空间信息等基础化设施优势，突破大数据关键技术和制约大数据发展的体制机制瓶颈。在充分了解和分析数据的基础上，建设垂直应用，比如智慧交通、智慧医疗、智慧教育、智慧物流、平安城市等等，实现数据驱动创新创业，打造大数据创新创业生态圈，并推动大数据技术与城市管理、经济社会各领域相关应用的深度融合，支撑和促进经济社会发展。参考资料：
为您推荐：
其他类似问题
您可能关注的内容
换一换
回答问题，赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。搭建复杂的大数据平台，那么多的组件能不能自动配置与集成？_百度知道
搭建复杂的大数据平台，那么多的组件能不能自动配置与集成？
我有更好的答案
使用AppCenter 2.0上的一套模板，就能够轻松帮你实现组件自动配置与集成
采纳率：36%
为您推荐：
其他类似问题
换一换
回答问题，赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。企业大数据规划需要的三种能力和五个步骤 | 36大数据
我的图书馆
企业大数据规划需要的三种能力和五个步骤 | 36大数据
大数据规划有五个步骤，首先从业务驱动的角度，相关部门选择要解决和产生的业务场景。针对需求处理和采取整合这些场景需要的大数据。当然选择的重点是怎么使信息快速产生价值。
数据分析的未来将朝着更为普及化、更为实时的数据分析去迈进，也就是说“针对正确的人，在正确的时间，获得正确的信息”，从这个意义来说，它已经超越了技术本身，是更为接近业务层面的实时分析。
对于一个成功企业来说，数据整合能力、分析能力和行动能力不可或缺。如果不具备完善的数据整合、分析和行动能力的企业迟早面临被淘汰的风险。在经营环境发生巨变的情况下，任何企业都必须在大数据规划上做好准备，这样才能抢先竞争对手发现市场新的趋势。
我们建议企业和政府机构进行数据整合能力、分析能力和行动能力的建设。对于任何公司的管理层来说，要充分认识到数据的重要性，在管理层充分认识到数据的重要性之后，内部要有足够的人员和能力去整合、搭建和完善数据管理基础架构。有了海量数据之后，数据分析师能够对其进行分析和挖掘，使其产生理想的价值。
数据分析能力通过一定的方法论可以获得。这个方法论从宏观的角度来看，是通过数据整合探索出有效的业务价值，进而精确地协助制定商业策略或服务提升的策略，有效地采取正确的行动，来协助业务和服务质量的增长，或是解决业务已知、不确定或发现未知的问题。
另外，数据要实现普及化，不仅掌握在管理层手中，在数据安全和权限管理的机制下，企业或单位的每一个人都要了解自己的业务具体发生了什么，为何发生，预测将要发生什么情况，从而更快、更好地做出决策，最终达到智慧型的管理，通过一些主动式的事件，产生正确的行动，如业务增长的价值措施和办法，来精确有效地提升业务的增长。
如今大数据已经远远超出了IT的范畴，也就是说所有部门都在大数据运用的范畴中。
大数据规划有五个步骤，首先从业务驱动的角度，相关部门选择要解决和产生的业务场景。针对需求处理和采取整合这些场景需要的大数据。当然选择的重点是怎么使信息快速产生价值。场景因需求不同而包罗万象：例如企业在精确营销方面提升业务增长，对于其客户在购买哪些产品前的黄金路径统计分析等等。
其次，直接产生的价值需要与已有的客户关系管理、客户交易等数据进行结合和关联，从而为企业产生总体的关键价值效益。例如，哪些用户在购买前确实通过上述统计总结的黄金路径，而这些用户和该企业的历史关系为何，以提供企业下一步精确行动的优先顺序等等。
第三，整个企业要建立大数据分析的支持体系、分析的文化、分析数据的人才，彻底形成企业对大数据的综合管理、探索、共识。大数据能力的建设是企业或政府单位内上下及跨部门就如何提供更加智慧型服务和产品给用户的议题。
第四，随着大数据探索范围的扩大，企业要建立大数据的标准，统一数据格式、采集方法、使用方式，设定一个共享的愿景和目的，然后按照阶段化的目标去实现愿景。例如，有关数据的存储和处理长期围绕在关系型的结构数据中，提供更加智慧型服务和产品是需要结合过去难以处理分析的数据，如文本、图像等等。数据内容快速演变，因此对数据的标准、格式、采集、工具、方法等的治理能力必须与时俱进。
第五，最终建成企业或政府单位内的“统一数据架构”，从各类所需的多元的结构化数据源建立整合能力（采集、存储、粗加工）。在此基础上，建设数据探索和分析能力（从整合出来的海量数据里快速探索出价值），之后如何有效、实时、精确地与已有的业务数据结合，产生精确的业务行动能力（进行更深度的利用和提供更智慧型的服务），从而达到“针对正确的人，在正确的时间，正确的方式，提供正确的信息”的目标。
扫描微信下面二维码，随时了解大数据最新动向，添加36大数据官方微信公共帐号dashuju36:
转载请注明来自36大数据（36dsj.com)： ?
TA的最新馆藏[转]&[转]&[转]&[转]&
喜欢该文的人也喜欢【图文】大数据中心建设思路_百度文库
两大类热门资源免费畅读
续费一年阅读会员，立省24元！
大数据中心建设思路
登录百度文库，专享文档复制特权，财富值每天免费拿！
你可能喜欢}

久游无息网