如何评价kudumysql 存储引擎擎

Hadoop生态系统发展到现在,存储层主要由HDFS和HBase两个系统把持着,一直没有太大突破。在追求高吞吐的批处理场景下,我们选用HDFS,在追求低延迟,有随机读写需求的场景下,我们选用HBase,那么是否存在一种系统,能结合两个系统优点,同时支持高吞吐率和低延迟呢?有人尝试修改HBase内核构造这样的系统,即保留HBase的数据模型,而将其底层存储部分改为纯列式存储(目前HBase只能算是列簇式存储引擎),但这种修改难度较大。Kudu的出现有望解决这一难题。
Kudu是Cloudera开源的列式存储引擎,具有以下几个特点:
C++语言开发,Kudu 的 API 可以使用 Java 和 C++高效处理类OLAP负载与MapReduce,Spark以及Hadoop生态系统中其他组件进行友好集成可与Cloudera Impala集成,替代目前Impala常用的HDFS+Parquet组合灵活的一致性模型顺序写和随机写并存的场景下,仍能达到良好的性能高可用,使用Raft协议保证数据高可靠存储结构化数据模型
Kudu的出现,有望解决目前Hadoop生态系统难以解决的一大类问题,比如:
流式实时计算结果的更新
时间序列相关应用,具体要求有:
查询海量历史数据查询个体数据,并要求快速返回预测模型中,周期性更新模型,并根据历史数据快速做出决策
&Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分组成),可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据,从而大大降低了延迟。其架构如图 1所示,Impala主要由Impalad, State Store和CLI组成。
&Impala与Hive都是构建在Hadoop之上的数据查询工具各有不同的侧重适应面,但从客户端使用来看Impala与Hive有很多的共同之处,如数据表元数据、ODBC/JDBC驱动、SQL语法、灵活的文件格式、存储资源池等。Impala与Hive在Hadoop中的关系如图 2所示。Hive适合于长时间的批处理查询分析,而Impala适合于实时交互式SQL查询,Impala给数据分析人员提供了快速实验、验证想法的大数据分析工具。可以先使用hive进行数据转换处理,之后使用Impala在Hive处理后的结果数据集上进行快速的数据分析。
2、PostgreSQL
MySQL与PostgreSQL都是免费、开源、强大、且功能丰富的数据库。
PostgreSQL是完全由社区驱动的开源项目,由全世界超过1000名贡献者所维护。它提供了单个完整功能的版本,而不像MySQL那样提供了 多个不同的社区版、商业版与企业版。
MySQL通常被认为是针对网站与应用的快速数据库后端,能够进行快速的读取和大量的查询操作,不过在复杂特性与数据完整性检查方面不太尽如人意。&
PostgreSQL是针对事务型企业应用的严肃、功能完善的数据库,支持强ACID特性和很多数据完整性检查。他们二者都在某些任务上具有很快的速度,MySQL不同存储引擎的行为有较大差别。
3、交互式查询
/archives/30017
基于Map-Reduce模式的Hadoop擅长数据批处理,不是特别符合即时查询的场景。实时查询一般使用MPP
(Massively Parallel Processing)的架构,因此用户需要在Hadoop和MPP两种技术中选择。在Google的第二波技术浪潮中,一些基于Hadoop架构的快速 SQL访问技术逐步获得人们关注。现在有一种新的趋势是MPP和Hadoop相结合提供快速SQL访问框架。
最近有四个很热门的开源工具出
来:Impala、Shark、Stinger和Presto。这也显示了大数据领域对于Hadoop生态系统中支持实时查询的期望。总体来说,Impala、Shark、Stinger和Presto四个系统都是类SQL实时大数据查询分析引擎,但是它们的技术侧重点完全不同。而且它们也不 是为了替换Hive而生,Hive在做数据仓库时是非常有价值的。这四个系统与Hive都是构建在Hadoop之上的数据查询工具,各有不同的侧重适应 面,但从客户端使用来看它们与Hive有很多的共同之处,如数据表元数据、Thrift接口、ODBC/JDBC驱动、SQL语法、灵活的文件格式、存储
资源池等。Hive与Impala、Shark、Stinger、Presto在Hadoop中的关系如图2所示。Hive适用于长时间的批处理查询分 析,而Impala、Shark、Stinger和Presto适用于实时交互式SQL查询,它们给数据分析人员提供了快速实验、验证想法的大数据分析工 具。可以先使用Hive进行数据转换处理,之后使用这四个系统中的一个在Hive处理后的结果数据集上进行快速的数据分析。
1) Hive,披着SQL外衣的Map-Reduce。Hive是为方便用户使用Map-Reduce而在外面封装了一层SQL,由于Hive采 用了SQL,它的问题域比Map-Reduce更窄,因为很多问题,SQL表达不出来,比如一些数据挖掘算法,推荐算法、图像识别算法等,这些仍只能通过 编写Map-Reduce完成。
2) Impala:Google Dremel的开源实现(Apache Drill类似),因为交互式实时计算需求,Cloudera推出了Impala系统,该系统适用于交互式实时处理场景,要求最后产生的数据量一定要少。
3) Shark/Spark:为了提高Map-Reduce的计算效率,Berkeley的AMPLab实验室开发了Spark,Spark可看 做基于内存的Map-Reduce实现,此外,伯克利还在Spark基础上封装了一层SQL,产生了一个新的类似Hive的系统Shark。
4) Stinger Initiative(Tez optimized Hive):Hortonworks开源了一个DAG计算框架Tez,Tez可以理解为Google Pregel的开源实现,该框架可以像Map-Reduce一样,可以用来设计DAG应用程序,但需要注意的是,Tez只能运行在YARN上。Tez的一 个重要应用是优化Hive和PIG这种典型的DAG应用场景,它通过减少数据读写IO,优化DAG流程使得Hive速度提供了很多倍。
5) Presto:FaceBook于2013年11月份开源了Presto,一个分布式SQL查询引擎,它被设计为用来专门进行高速、实时的数 据分析。它支持标准的ANSI SQL,包括复杂查询、聚合(aggregation)、连接(join)和窗口函数(window functions)。Presto设计了一个简单的数据存储的抽象层,来满足在不同数据存储系统(包括HBase、HDFS、Scribe等)之上都可 以使用SQL进行查询。
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:5486次
排名:千里之外
原创:31篇
(1)(1)(1)(4)(2)(7)(8)(9)(1)Cloudera月底将发布新的开源储存引擎Kudu-红联Linux系统门户
您的位置:
&& 查看内容 - - -
Cloudera月底将发布新的开源储存引擎Kudu
Xuein发布于
&&字号: &&&&(网友评论&0&条)&
来源:开源中国社区
据外媒报道,大数据公司 Cloudera 正在开发一个大型的开源储存引擎 Kudu,用于储存和服务大量不同类型的非结构化数据。预计本月底发布。
Kudu 将被当作目前广泛使用的 Hadoop Distributed File System 和 Hadoop-oriented HBase NoSQL 数据库的替代产品,并将集合两者的特点。Kudu 将遵循 Apache 协议开源。
据说,Kudu 的扫描速度几乎和原生 HDFS 一样快,同时随机访问速度和 HBase 几乎一样快。不过,Kudu 并不打算替换掉 HDFS 或 HBase。Cloudera 未来也会继续支持 HDFS 和 HBase。
Kudu 可用于时间序列数据,实时报告,模型构建。但它不是一个 SQL 查询引擎用来 pull 特定数据。Kudu 将集成 Impala,未来也将支持 Spark。此外,Kudu 的 API 可以使用 Java 和 C++。
发表评论,与各位同人交流。回复请点击下方的我要评论按钮(游客可回复),要发表贴子请点击
Linux教程下载?“”(请点击),Linux教程免费下载。
求助Linux问题?论坛有39版块,覆盖所有Linux技术层面。前往“”
 |  |  |  |  |  |  |  |  |  |  |  | 
&2015 红联 Powered by SupSiteHadoop生态新增列式存储系统Kudu - hadoop123 - 酷饭网-微信头条()
点击hadoop123关注我哟? 最知名的hadoop/spark大数据技术分享基地,分享hadoop/spark技术内幕,hadoop/spark最新技术进展,hadoop/spark行业技术应用,发布hadoop/spark相关职位和求职信息,hadoop/spark技术交流聚会、讲座以及会议等。Hadoop生态系统发展到现在,存储层主要由HDFS和HBase两个系统把持着,一直没有太大突破。在追求高吞吐的批处理场景下,我们选用HDFS,在追求低延迟,有随机读写需求的场景下,我们选用HBase,那么是否存在一种系统,能结合两个系统优点,同时支持高吞吐率和低延迟呢?有人尝试修改HBase内核构造这样的系统,即保留HBase的数据模型,而将其底层存储部分改为纯列式存储(目前HBase只能算是列簇式存储引擎),但这种修改难度较大。Kudu的出现有望解决这一难题。Kudu是Cloudera开源的列式存储引擎,具有以下几个特点:C++语言开发高效处理类OLAP负载与MapReduce,Spark以及Hadoop生态系统中其他组件进行友好集成可与Cloudera Impala集成,替代目前Impala常用的HDFS+Parquet组合灵活的一致性模型顺序写和随机写并存的场景下,仍能达到良好的性能高可用,使用Raft协议保证数据高可靠存储结构化数据模型Kudu的出现,有望解决目前Hadoop生态系统难以解决的一大类问题,比如:流式实时计算结果的更新时间序列相关应用,具体要求有:查询海量历史数据查询个体数据,并要求快速返回预测模型中,周期性更新模型,并根据历史数据快速做出决策Kudu架构如下图所示:目前Kudu处于beta版,仍在不断开发迭代中,不久将提交并成为Apache Software Foundation incubator,据有关资料介绍,国内小米参与了kudu的开发,并做出不少贡献。据小米首席架构师崔宝秋介绍:“作为 Hadoop 生态系统的长期用户和贡献者,小米在 Kudu 项目初期就开始了和 Cloudera 的合作开发,并已经将 Kudu 独特的实时数据分析功能用到了小米业务中。”Kudu官方网站:http://getkudu.ioKudu源代码:/cloudera/kudu
最知名的Hadoop/Spark/Docker大数据技术基地,分享Hadoop技术内幕,Hadoop最新技术进展,发布Hadoop相关职位和求职信息,Hadoop技术交流聚会、讲座以及会议等。
本站文章来自网友的提交收录,如需删除或申请收录,请联系Cloudera 公司研发工程师,Kudu 发明人Todd Lipcon:Kudu,Storage for Fast Analytics on fas...-中国学网-中国IT综合门户网站
Cloudera 公司研发工程师,Kudu 发明人Todd Lipcon:Kudu,Storage for Fast Analytics on fas...
来源:互联网 发表时间: 10:53:25 责任编辑:鲁晓倩字体:
【CSDN现场报道】-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协办,以“数据安全、深度分析、行业应用”为主题的2015中国大数据技术大会(Big Data Technology Conference 2015,BDTC 2015)在北京新云南皇冠假日酒店盛大开幕。Cloudera 公司研发工程师,Kudu 发明人Todd Lipcon带来的演讲主题是《Kudu:Storage for Fast Analytics on fast Data》。Todd Lipcon同时也是Hadoop、HBASE等项目的成员。他表示Kudu是一个新的存储引擎,这个项目研发的动机是希望解决HBASE等等这些不能兼顾高性能分析和更新的问题,Todd Lipcon详细介绍了Kudu如何简化构建分析型应用架构,如何提高分析的性能,另外,他邀请了小米公司的一个工程师给他助阵,演示Kudu上面的实际应用效果。中国学网
Cloudera 公司研发工程师,Kudu 发明人 Todd LipconTodd Lipcon:大家好!今天给大家介绍下Kudu,昨天我们谈到了Kudu,昨天我们在一个孵化器讨论组中间谈到Kudu,今天我们具体介绍下Kudu。首先开始讨论一下为什么我们建立Kudu,它是个新的存储系统,基于Hadoop生态系统之上的系统,Hadoop有很多组件,组件多的让人迷惑 ,我们为什么还要增加一个组件?如果看Hadoop的生态系统,有两种存储的选择这个表格没有什么数据,在这个表格上大家可以看到两个存储选择,首先可以看到HDFS,HDFS是个非常成熟的系统,HDFS对于分析来讲是非常棒的系统。在Y轴上面是性能表现,HDFS分析性能非常好,可以进行很多数据的处理,而且进行高性能高速的大数据处理。但是X轴上上我们随机的访问,可以看到HDFS这个解决方案的不好,它对于随机的支持和随机的访问是表现不太好的。我们有另外一个系统叫“HBASE”,可以花几毫秒时间进行数据缓冲、数据整合和调取数据,大家如果进行分析,比如SQL在HBASE上进行分析的话,它的性能并不是很好,所以HBASE对于数据分析来讲比HDFS慢很多。有的时候你是分析师,有的时候你要进行数据迁移和整合,所以没有人能够填补这中间的空缺,就是同时兼具数据分析、数据整合、数据迁移和数据访问,Kudu填补了这个空白 。Kudu的分析比这个好很多,另外,它的延迟很少,几毫秒时间可以进行随机随意调取和数据的更新,所以我们的语言和语境都是非常连续和连贯的,我们也有不同的表格、不同的数据线和行,就相当于是一个线性的数据组。我为什么要做Kudu的另外一个原因,因为它的硬件变了,HDFS是2003年Google基础上的,HBASE是基于06年开发的硬件,可是现在的硬件完全不一样了,2006年我们没有Flash,对于随机调取来讲Flash更加便宜,读写能力很好,价格是3美元每个比特,同时它在不停的下降。下一个阶段的硬件也在研发过程中,英特尔他们在做新的硬件,硬件的处理速度快很多。HDFS和HBASE的硬件不适应这样的高性能。另外一个大变化是RAM完全增大了,以前是64兆RAM,现在256G的RMA非常常见,甚至更大。所以我们需要用一个东西用起我们的缓存,这样我们就可以进行更好更快的数据处理。但是在HBASE和HDFS并不能高效利用CPU,它们的存储很慢,现在的特点是我们的存储都很快了,所以现在我们需要更好的系统,把冗余去掉,更好的应用CPU和存储的性能。
相关文章:
上一篇文章:下一篇文章:
最新添加资讯
24小时热门资讯
Copyright © 2004- All Rights Reserved. 中国学网 版权所有
京ICP备号-1 京公网安备02号}

我要回帖

更多关于 merge存储引擎 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信