如何评价kudumysql 存储引擎擎

点击联系发帖人 时间：2016-01-03 09:00

merge存储引擎

Hadoop生态系统发展到现在，存储层主要由HDFS和HBase两个系统把持着，一直没有太大突破。在追求高吞吐的批处理场景下，我们选用HDFS，在追求低延迟，有随机读写需求的场景下，我们选用HBase，那么是否存在一种系统，能结合两个系统优点，同时支持高吞吐率和低延迟呢？有人尝试修改HBase内核构造这样的系统，即保留HBase的数据模型，而将其底层存储部分改为纯列式存储（目前HBase只能算是列簇式存储引擎），但这种修改难度较大。Kudu的出现有望解决这一难题。
Kudu是Cloudera开源的列式存储引擎，具有以下几个特点：
C++语言开发，Kudu 的 API 可以使用 Java 和 C++高效处理类OLAP负载与MapReduce，Spark以及Hadoop生态系统中其他组件进行友好集成可与Cloudera Impala集成，替代目前Impala常用的HDFS+Parquet组合灵活的一致性模型顺序写和随机写并存的场景下，仍能达到良好的性能高可用，使用Raft协议保证数据高可靠存储结构化数据模型
Kudu的出现，有望解决目前Hadoop生态系统难以解决的一大类问题，比如：
流式实时计算结果的更新
时间序列相关应用，具体要求有：
查询海量历史数据查询个体数据，并要求快速返回预测模型中，周期性更新模型，并根据历史数据快速做出决策
&Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具，Impala没有再使用缓慢的Hive+MapReduce批处理，而是通过使用与商用并行关系数据库中类似的分布式查询引擎（由Query Planner、Query Coordinator和Query Exec Engine三部分组成），可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据，从而大大降低了延迟。其架构如图 1所示，Impala主要由Impalad， State Store和CLI组成。
&Impala与Hive都是构建在Hadoop之上的数据查询工具各有不同的侧重适应面，但从客户端使用来看Impala与Hive有很多的共同之处，如数据表元数据、ODBC/JDBC驱动、SQL语法、灵活的文件格式、存储资源池等。Impala与Hive在Hadoop中的关系如图 2所示。Hive适合于长时间的批处理查询分析，而Impala适合于实时交互式SQL查询，Impala给数据分析人员提供了快速实验、验证想法的大数据分析工具。可以先使用hive进行数据转换处理，之后使用Impala在Hive处理后的结果数据集上进行快速的数据分析。
2、PostgreSQL
MySQL与PostgreSQL都是免费、开源、强大、且功能丰富的数据库。
PostgreSQL是完全由社区驱动的开源项目，由全世界超过1000名贡献者所维护。它提供了单个完整功能的版本，而不像MySQL那样提供了多个不同的社区版、商业版与企业版。
MySQL通常被认为是针对网站与应用的快速数据库后端，能够进行快速的读取和大量的查询操作，不过在复杂特性与数据完整性检查方面不太尽如人意。&
PostgreSQL是针对事务型企业应用的严肃、功能完善的数据库，支持强ACID特性和很多数据完整性检查。他们二者都在某些任务上具有很快的速度，MySQL不同存储引擎的行为有较大差别。
3、交互式查询
/archives/30017
基于Map-Reduce模式的Hadoop擅长数据批处理，不是特别符合即时查询的场景。实时查询一般使用MPP
(Massively Parallel Processing)的架构，因此用户需要在Hadoop和MPP两种技术中选择。在Google的第二波技术浪潮中，一些基于Hadoop架构的快速 SQL访问技术逐步获得人们关注。现在有一种新的趋势是MPP和Hadoop相结合提供快速SQL访问框架。
最近有四个很热门的开源工具出
来：Impala、Shark、Stinger和Presto。这也显示了大数据领域对于Hadoop生态系统中支持实时查询的期望。总体来说，Impala、Shark、Stinger和Presto四个系统都是类SQL实时大数据查询分析引擎，但是它们的技术侧重点完全不同。而且它们也不是为了替换Hive而生，Hive在做数据仓库时是非常有价值的。这四个系统与Hive都是构建在Hadoop之上的数据查询工具，各有不同的侧重适应面，但从客户端使用来看它们与Hive有很多的共同之处，如数据表元数据、Thrift接口、ODBC/JDBC驱动、SQL语法、灵活的文件格式、存储
资源池等。Hive与Impala、Shark、Stinger、Presto在Hadoop中的关系如图2所示。Hive适用于长时间的批处理查询分析，而Impala、Shark、Stinger和Presto适用于实时交互式SQL查询，它们给数据分析人员提供了快速实验、验证想法的大数据分析工具。可以先使用Hive进行数据转换处理，之后使用这四个系统中的一个在Hive处理后的结果数据集上进行快速的数据分析。
1) Hive，披着SQL外衣的Map-Reduce。Hive是为方便用户使用Map-Reduce而在外面封装了一层SQL，由于Hive采用了SQL，它的问题域比Map-Reduce更窄，因为很多问题，SQL表达不出来，比如一些数据挖掘算法，推荐算法、图像识别算法等，这些仍只能通过编写Map-Reduce完成。
2) Impala：Google Dremel的开源实现（Apache Drill类似），因为交互式实时计算需求，Cloudera推出了Impala系统，该系统适用于交互式实时处理场景，要求最后产生的数据量一定要少。
3) Shark/Spark：为了提高Map-Reduce的计算效率，Berkeley的AMPLab实验室开发了Spark，Spark可看做基于内存的Map-Reduce实现，此外，伯克利还在Spark基础上封装了一层SQL，产生了一个新的类似Hive的系统Shark。
4) Stinger Initiative（Tez optimized Hive）：Hortonworks开源了一个DAG计算框架Tez，Tez可以理解为Google Pregel的开源实现，该框架可以像Map-Reduce一样，可以用来设计DAG应用程序，但需要注意的是，Tez只能运行在YARN上。Tez的一个重要应用是优化Hive和PIG这种典型的DAG应用场景，它通过减少数据读写IO，优化DAG流程使得Hive速度提供了很多倍。
5) Presto：FaceBook于2013年11月份开源了Presto，一个分布式SQL查询引擎，它被设计为用来专门进行高速、实时的数据分析。它支持标准的ANSI SQL，包括复杂查询、聚合（aggregation）、连接（join）和窗口函数（window functions)。Presto设计了一个简单的数据存储的抽象层，来满足在不同数据存储系统（包括HBase、HDFS、Scribe等）之上都可以使用SQL进行查询。
* 以上用户言论只代表其个人观点，不代表CSDN网站的观点或立场
访问：5486次
排名：千里之外
原创：31篇
(1)(1)(1)(4)(2)(7)(8)(9)(1)Cloudera月底将发布新的开源储存引擎Kudu-红联Linux系统门户
您的位置：
&& 查看内容－－－
Cloudera月底将发布新的开源储存引擎Kudu
Xuein发布于
&&字号: &&&&(网友评论&0&条)&
来源:开源中国社区
据外媒报道，大数据公司 Cloudera 正在开发一个大型的开源储存引擎 Kudu，用于储存和服务大量不同类型的非结构化数据。预计本月底发布。
Kudu 将被当作目前广泛使用的 Hadoop Distributed File System 和 Hadoop-oriented HBase NoSQL 数据库的替代产品，并将集合两者的特点。Kudu 将遵循 Apache 协议开源。
据说，Kudu 的扫描速度几乎和原生 HDFS 一样快，同时随机访问速度和 HBase 几乎一样快。不过，Kudu 并不打算替换掉 HDFS 或 HBase。Cloudera 未来也会继续支持 HDFS 和 HBase。
Kudu 可用于时间序列数据，实时报告，模型构建。但它不是一个 SQL 查询引擎用来 pull 特定数据。Kudu 将集成 Impala，未来也将支持 Spark。此外，Kudu 的 API 可以使用 Java 和 C++。
发表评论，与各位同人交流。回复请点击下方的我要评论按钮(游客可回复)，要发表贴子请点击
Linux教程下载？“”（请点击），Linux教程免费下载。
求助Linux问题？论坛有39版块，覆盖所有Linux技术层面。前往“”
　|　　|　　|　　|　　|　　|　　|　　|　　|　　|　　|　　|　
&2015 红联 Powered by SupSiteHadoop生态新增列式存储系统Kudu - hadoop123 - 酷饭网-微信头条()
点击hadoop123关注我哟? 最知名的hadoop/spark大数据技术分享基地，分享hadoop/spark技术内幕，hadoop/spark最新技术进展，hadoop/spark行业技术应用，发布hadoop/spark相关职位和求职信息，hadoop/spark技术交流聚会、讲座以及会议等。Hadoop生态系统发展到现在，存储层主要由HDFS和HBase两个系统把持着，一直没有太大突破。在追求高吞吐的批处理场景下，我们选用HDFS，在追求低延迟，有随机读写需求的场景下，我们选用HBase，那么是否存在一种系统，能结合两个系统优点，同时支持高吞吐率和低延迟呢？有人尝试修改HBase内核构造这样的系统，即保留HBase的数据模型，而将其底层存储部分改为纯列式存储（目前HBase只能算是列簇式存储引擎），但这种修改难度较大。Kudu的出现有望解决这一难题。Kudu是Cloudera开源的列式存储引擎，具有以下几个特点：C++语言开发高效处理类OLAP负载与MapReduce，Spark以及Hadoop生态系统中其他组件进行友好集成可与Cloudera Impala集成，替代目前Impala常用的HDFS+Parquet组合灵活的一致性模型顺序写和随机写并存的场景下，仍能达到良好的性能高可用，使用Raft协议保证数据高可靠存储结构化数据模型Kudu的出现，有望解决目前Hadoop生态系统难以解决的一大类问题，比如：流式实时计算结果的更新时间序列相关应用，具体要求有：查询海量历史数据查询个体数据，并要求快速返回预测模型中，周期性更新模型，并根据历史数据快速做出决策Kudu架构如下图所示：目前Kudu处于beta版，仍在不断开发迭代中，不久将提交并成为Apache Software Foundation incubator，据有关资料介绍，国内小米参与了kudu的开发，并做出不少贡献。据小米首席架构师崔宝秋介绍：“作为 Hadoop 生态系统的长期用户和贡献者，小米在 Kudu 项目初期就开始了和 Cloudera 的合作开发，并已经将 Kudu 独特的实时数据分析功能用到了小米业务中。”Kudu官方网站：http://getkudu.ioKudu源代码：/cloudera/kudu
最知名的Hadoop/Spark/Docker大数据技术基地，分享Hadoop技术内幕，Hadoop最新技术进展，发布Hadoop相关职位和求职信息，Hadoop技术交流聚会、讲座以及会议等。
本站文章来自网友的提交收录，如需删除或申请收录，请联系Cloudera 公司研发工程师，Kudu 发明人Todd Lipcon：Kudu，Storage for Fast Analytics on fas...-中国学网-中国IT综合门户网站
Cloudera 公司研发工程师，Kudu 发明人Todd Lipcon：Kudu，Storage for Fast Analytics on fas...
来源：互联网发表时间： 10:53:25 责任编辑：鲁晓倩字体：
【CSDN现场报道】-12日，由中国计算机学会（CCF）主办，CCF大数据专家委员会承办，中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协办，以“数据安全、深度分析、行业应用”为主题的2015中国大数据技术大会（Big Data Technology Conference 2015，BDTC 2015）在北京新云南皇冠假日酒店盛大开幕。Cloudera 公司研发工程师，Kudu 发明人Todd Lipcon带来的演讲主题是《Kudu:Storage for Fast Analytics on fast Data》。Todd Lipcon同时也是Hadoop、HBASE等项目的成员。他表示Kudu是一个新的存储引擎，这个项目研发的动机是希望解决HBASE等等这些不能兼顾高性能分析和更新的问题，Todd Lipcon详细介绍了Kudu如何简化构建分析型应用架构，如何提高分析的性能，另外，他邀请了小米公司的一个工程师给他助阵，演示Kudu上面的实际应用效果。中国学网
Cloudera 公司研发工程师，Kudu 发明人 Todd LipconTodd Lipcon：大家好！今天给大家介绍下Kudu，昨天我们谈到了Kudu，昨天我们在一个孵化器讨论组中间谈到Kudu，今天我们具体介绍下Kudu。首先开始讨论一下为什么我们建立Kudu，它是个新的存储系统，基于Hadoop生态系统之上的系统，Hadoop有很多组件，组件多的让人迷惑，我们为什么还要增加一个组件？如果看Hadoop的生态系统，有两种存储的选择这个表格没有什么数据，在这个表格上大家可以看到两个存储选择，首先可以看到HDFS，HDFS是个非常成熟的系统，HDFS对于分析来讲是非常棒的系统。在Y轴上面是性能表现，HDFS分析性能非常好，可以进行很多数据的处理，而且进行高性能高速的大数据处理。但是X轴上上我们随机的访问，可以看到HDFS这个解决方案的不好，它对于随机的支持和随机的访问是表现不太好的。我们有另外一个系统叫“HBASE”，可以花几毫秒时间进行数据缓冲、数据整合和调取数据，大家如果进行分析，比如SQL在HBASE上进行分析的话，它的性能并不是很好，所以HBASE对于数据分析来讲比HDFS慢很多。有的时候你是分析师，有的时候你要进行数据迁移和整合，所以没有人能够填补这中间的空缺，就是同时兼具数据分析、数据整合、数据迁移和数据访问，Kudu填补了这个空白。Kudu的分析比这个好很多，另外，它的延迟很少，几毫秒时间可以进行随机随意调取和数据的更新，所以我们的语言和语境都是非常连续和连贯的，我们也有不同的表格、不同的数据线和行，就相当于是一个线性的数据组。我为什么要做Kudu的另外一个原因，因为它的硬件变了，HDFS是2003年Google基础上的，HBASE是基于06年开发的硬件，可是现在的硬件完全不一样了，2006年我们没有Flash，对于随机调取来讲Flash更加便宜，读写能力很好，价格是3美元每个比特，同时它在不停的下降。下一个阶段的硬件也在研发过程中，英特尔他们在做新的硬件，硬件的处理速度快很多。HDFS和HBASE的硬件不适应这样的高性能。另外一个大变化是RAM完全增大了，以前是64兆RAM，现在256G的RMA非常常见，甚至更大。所以我们需要用一个东西用起我们的缓存，这样我们就可以进行更好更快的数据处理。但是在HBASE和HDFS并不能高效利用CPU，它们的存储很慢，现在的特点是我们的存储都很快了，所以现在我们需要更好的系统，把冗余去掉，更好的应用CPU和存储的性能。
相关文章：
上一篇文章：下一篇文章：
最新添加资讯
24小时热门资讯
Copyright © 2004- All Rights Reserved. 中国学网版权所有
京ICP备号-1 京公网安备02号}

久游无息网