MPP与Hadoop之间的关系是什么?

MPP与Hadoop之间的关系是什么?
2021年11月02日16:54:56 0 1170

广义的Hadoop包括 Impala, Presto | Distributed SQL Query Engine for Big Data

这些MPP架构的SQL引擎。Hadoop社区还在持续发展,Spark还在持续给人们带来惊喜,开源软件的迷人之处也在于此。

 

MPP与Hadoop之间的关系是什么?

 

 

先从NUMA说起吧,NUMA全称为Non-Uniform Memory Access,是主流服务服务器为了提高SMP的可扩展性而采用的一种体系结构。主流服务器一般由多个NUMA节点组成,每个NUMA节点是一个SMP结构,一般由多个CPU组成,并且具有本地内存和IO设备。NUMA节点可以直接访问本地内存,也可以通过NUMA互联模块访问其他NUMA节点的内存,但是访问本地内存的速度远远高于远程访问速度,因此,开发程序要尽量减少不同NUMA节点之间的信息交互。

MPP是一种海量数据实时分析架构。 MPP作为一种不共享架构,每个节点运行自己的操作系统和数据库等,节点之间信息交互只能通过网络连接实现。MPP架构目前被并行数据库广泛采用,一般通过scan、sort和merge等操作符实时返回查询结果。目前采用MPP架构的实时查询系统有EMC Greenplum、HP Vertica和Google Dremel,这些都是实时数据处理领域非常有特点的系统,尤其是Dremel可以轻松扩展到上千台服务器,并在数秒内完成TB级数据的分析。

Hadoop作为一个开源项目群本身和MPP并没有什么直接关系,Hadoop中的子项目MapReduce虽然也是做数据分析处理的,但是一般只适用于离线数据分析,区别与MPP较为明显。因为Map和Reduce两个过程涉及到输出文件的存取和大量网络传输,因此往往达不到实时处理的要求。与MapReduce 相似的系统还有Microsoft Dryad和Google pregel。

综上所述,NUMA是一种体系结构,MPP是一种实时海量数据分析架构,而Hadoop是一个关于数据存储处理的项目群,其中的MapReduce是一种离线海量数据分析架构。

实测对比GreenPlum和Hive,GP比Hive性能高出至少一个数量级,但是大部分场景下,依然是秒级甚至分钟级的延迟,距离具体通常意义的实时毫秒级,差距巨大。

另外说一句,广义的Hadoop包括Impala,Presto | Distributed SQL Query Engine for Big Data 这些MPP架构的SQL引擎。Hadoop社区还在持续发展,Spark还在持续给人们带来惊喜,开源软件的迷人之处也在于此。

在此我向大家推荐一个大数据开发交流圈:658558542 里面整理了一大份学习资料,全都是些干货,包括大数据技术入门,大数据离线处理、数据实时处理、Hadoop 、Spark、Flink、推荐系统算法以及源码解析等,送给每一位大数据小伙伴,让自学更轻松。这里不止是小白聚集地,还有兴迈在线解答!欢迎初学和进阶中的小伙伴一起进群学习交流,共同进步!

打赏 点赞(0)
weinxin
微信客服
问题+文章链接地址,发送到此微信:tourism52咨询处理。
猜您今天喜欢
猜您
喜欢
历史上的今天
02月
06
网站用户 菜鸟教程

网站用户

您的用户所使用的硬件和软件各不相同。 最重要的事情是了解您的受众(用户)。 他们使用什么显示器? 请记住,在 web 上并非所有用户都使用与您相同的显示器。如果您针对 1024x7...
php,能做,什么 菜鸟教程

PHP 能做什么?

PHP 能做什么?PHP 能做任何事。PHP 主要是用于服务端的脚本程序,因此可以用 PHP 来完成任何其它的 CGI 程序能够完成的工作,例如收集表单数据,生成动态网页,或者发送...
如何,避免,出现,sql,注入,漏洞 菜鸟教程

如何避免出现SQL注入漏洞

一  前言本文将针对开发过程中依旧经常出现的SQL编码缺陷,讲解其背后原理及形成原因。并以几个常见漏洞存在形式,提醒技术同学注意相关问题。最后会根据原理,提供解决或缓解方...
ASP.NET,Web,Pages-,帮助,器,ASP.NET,Web,Pages-,帮助,器, 菜鸟教程

ASP.NET Web Pages-帮助器

ASP.NET Web Pages-帮助器 Web 帮助器大大简化了 Web 开发和常见的编程任务。 ASP.NET 帮助器 ASP.NET 帮助器是通过几行简单的 Razor 代...

评论列表 共有 0 条评论

暂无评论