原理的角度出发,map reduce其实就是二分查找的一个逆过程,不过因为计算节点有限,所以map和reduce前都预先有一个分区的步骤. 二分查找要求数据是排序好的,所以Map Reduce之间会有一个shuffle的过程对Map的结果排序. 。Reduce的输入是排好序的。

大数据技术:Map Reduce 和 MPP数据库 的区别

MR分而治之的策略和数据库行业中另一种数据库 Massively Parallel Processor 即大规模并行处理数据库(典型代表 AWS Redshift 和 Teradata 以及微软的 Azure SQL Data Warehouse)有什么区别呢?

MPP的思路简单粗暴,把数据分块,交给不同节点储存, 查询的时候各块的节点有独立的计算资源分别处理,然后汇总到一个leader node(又叫control node),具体的优化和传统的关系型数据库很相似,涉及到了索引,统计信息等概念. MPP有shared everything /Disk / Nothing之别.

举例来说说区别:

比如一张销售表,其中有一列产品类别,现在要知道各个产品类别的销量.

类别a1类别a2类别b3类别b1类别c4

MR处理方法:在map阶段,对每个hdfs的block统计各个类别销量,然后shuffle根据类别列排序,reduce阶段合并

MPP处理方法:每个block有单独的计算节点统计各个类别销量,汇总结果到leader node, leader做个合并,在这个案例里就是做几次加法

可以看到在这个场景中MPP的效率绝对比MR高的多,因为省去了shuffle排序的过程.其他步骤都很相似.

在实际应用中的确MPP有更高的效率,所以对于结构化的大数据, MPP至今仍是首选.

MR 或者 Spark胜过MPP的地方在于非结构化的数据处理上, 比如大量日志文件或者大量tweet。

或者在一些复杂的算法应用上MR或Spark的可编程性显得更加灵活. Hadoop复杂的ecosystem对于复杂情况有着更好的应对,而对于结构化的大数据,要是出一些纯统计数字的报表的话, Hadoop有点虎落平阳被犬欺的感觉。

大数据技术:Map Reduce 和 MPP数据库 的区别

一些大公司的架构也是MPP和Hadoop两者兼具的。既有用MPP处理传统的BI报表业务,又有使用Hadoop做一些深入分析的应用。未来MPP和hadoop能否融合起来,是一个值得观察的发展方向。

Shared Everything:一般是针对单个主机,完全透明共享CPU/MEMORY/IO,并行处理能力是最差的,典型的代表SQLServer

Shared Disk:各个处理单元使用自己的私有 CPU和Memory,共享磁盘系统。典型的代表Oracle Rac,它是数据共享,可通过增加节点来提高并行处理的能力,扩展能力较好。其类似于SMP(对称多处理)模式,但是当存储器接口达到饱和的时候,增加节点并不能获得更高的性能 。

Shared Nothing:各个处理单元都有自己私有的CPU/内存/硬盘等,不存在共享资源,类似于MPP(大规模并行处理)模式,各处理单元之间通过协议通信,并行处理和扩展能力更好。典型代表DB2 DPF和hadoop ,各节点相互独立,各自处理自己的数据,处理后的结果可能向上层汇总或在节点间流转。

我们常说的 Sharding 其实就是Share Nothing架构,它是把某个表从物理存储上被水平分割,并分配给多台服务器(或多个实例),每台服务器可以独立工作,具备共同的schema,比如MySQL Proxy和Google的各种架构,只需增加服务器数就可以增加处理能力和容量。

大数据技术:Map Reduce 和 MPP数据库 的区别

首先MPP 必须消除手工切分数据的工作量。这是MySQL 在互联网应用中的主要局限性。

另外MPP 的切分必须在任何时候都是平均的,不然某些节点处理的时间就明显多于另外一些节点。

对于工作负载是不是要平均分布有同种和异种之分,同种就是所有节点在数据装载的时候都同时转载,异种就是可以指定部分节点专门用来装载数据(逻辑上的不 是物理上) , 而其他所有节点用来负责查询。 Aster Data 和Greenplum 都属于这种。

两者之间并没有明显的优势科研,同种的工作负载情况下,需要软件提供商保证所有节点的负载是平衡的。 而异种的工作负载可以在你觉得数据装载很慢的情况下手工指定更多节点装载数据。区别其实就是自动化和手工控制,看个人喜好而已。

另外一个问题是查询如何被初始化的。 比如要查询销售最好的10件商品,每个节点都要先计算出自己的最好的10件商品,然后向上汇总,汇总的过程,肯定有些节点做的工作比其他节点要多。

上面只是一个简单的单表查询,如果是两个表的连接查询,可能还会涉及到节点之间计算的中间过程如何传递的问题。 是将大表和小表都平均分布,然后节点计算的时候将得到的结果汇总(可能要两次汇总),还是将大表平均分布,小表的数据传输给每个节点,这样汇总就只需要一 次。 (其中一个特例可以参考后面给出的Oracle Partition Wise Join)。

两种执行计划很难说谁好谁坏,数据量的大小可能会产生不同的影响。

有些特定的厂商专门对这种执行计划做过了优化的,比如EMC Greenplum 和 HP Vertica。

这其中涉及到很多取舍问题,比如数据分布模式,数据重新分布的成本,中间交换数据的网卡速度,储存介质读写的速度和数据量大小(计算过程一般都会用临时表 储存中间过程)。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

热门产品

谜男方法(The Mystery Method)【中文版】【Mystery】|谜男方法,The Mystery Method,Mystery,男方,the mystery method,中文版,mystery
谜男方法(The Mystery Method)【中文版】【Mystery】
冷读术(精简版本)|冷读术,精简,版本
冷读术(精简版本)
把妹达人2[1].游戏规则(Rules of the Game)【Neil Strauss】|把妹达人,把妹游戏规则,Rules of the Game,Neil Strauss,把妹达人2,游戏规则,rules of the game,neil strauss
把妹达人2[1].游戏规则(Rules of the Game)【Neil Strauss】
追求有术之撩汉指南-310页|撩汉指南,撩汉攻略,追求,有术,之撩汉,指南,310页
追求有术之撩汉指南-310页
追求有术之撩妹指南-288页|撩妹指南,追求,有术,之撩妹,指南,288页
追求有术之撩妹指南-288页
术中电烧伤的预防与处理|电烧伤的预防,电烧伤的预防与处理,电烧伤的处理,术中电烧伤,中电,烧伤,预防,处理
术中电烧伤的预防与处理
《盆底康复-盆底功能障碍性疾病的诊断治疗》培训课件ppt(69页)|盆底康复,盆底功能障碍性疾病,盆底功能障碍性疾病诊断,盆底功能障碍性疾病治疗,盆底功能障碍性疾病培训课件,盆底功能障碍性疾病培训,盆底功能障碍性疾病课件,盆底功能障碍性疾病诊断治疗,盆底,康复,功能,障碍性,疾病,诊断,治疗,培训,课件,ppt(69页)
《盆底康复-盆底功能障碍性疾病的诊断治疗》培训课件ppt(69页)
面诊手诊背诊舌诊腹诊...课件|面诊课件,手诊课件,背诊课件,舌诊课件,腹诊课件,诊断课件,面诊手诊背诊舌诊腹诊,课件
面诊手诊背诊舌诊腹诊...课件

历史上的今天:04月20日

学英语如何破解兴趣难题?这些学霸研究出“巧英语”108大招!

学英语如何破解兴趣难题?这些学霸研究出“巧英语”108大招!01聪明的英语教学法在路上新高考又带来新玩法,英语学科的变化主要有三点:第一,部分地区开始考口语。未来一定考察运用语言能力,而不仅是做题能力。第二,更加强调写作能力。之前写作只占25分,有些地区写作可能占40分。第三,更注重阅读能力,每一题目从2分变到2.5分。对我国学生来说,英语学习有两大难题:一是枯燥;二是提不起兴趣。挑战背后是无数个

MPP管200*12的厂家报价

MPP管200*12的厂家报价品牌通达型号200*12材质其它公称压力2.8Mpa管子形状直管用途电线护套长度10m  MPP顶管:化学名称:聚丙烯 比重:0.92-0.97克/立方厘米 成型收缩率:1.0-2.5% 。MPP热熔融在加工上有两个特点:其一:MPP熔体的粘度随剪切速度的提高而有明显的下降(受温度影响较小);其二:分子取向程度高而呈现较大的收缩率。MPP的热熔加工温度在(270-30

哪些网贷催收厉害 今年网贷催收为什么严重了

收藏的时候不要慌。催收不是他们想怎么催就怎么催的网贷催收最狠的公司。国家法律也有相关规定。如果遇到暴力催收网贷暴力催收的投诉,会严重影响生活。记得用法律武器维护自己的权益。 下面是201。进入2021年后,最近网贷似乎已经停止催收,财经借款人猖獗的网贷监管依然严格。但是,最近收藏又开始厉害了。也许,平台想尽快收回资金。网贷年底催收很厉害欠款人催收的原因是什么?有人怀疑网贷已经整改,想知道2021年

CPVC电力管和UPVC排水管区别

CPVC电力管和UPVC排水管区别品牌通达型号110材质其它公称压力1.6Mpa管子形状直管用途电线护套长度6m  CPVC电力管与UPVC排水管的区别:  1、材料不同:  CPVC电力管的材料是CPVC,是CPE和PVC混合在一起的材料,CPE是氯化聚乙烯,可作为高性能、高质量的特种橡胶。  UPVC排水管的材料是UPVC,是氯乙烯单体经聚合反应而制成的无定形热塑性树脂加一定的添加剂如稳定剂、

玻璃钢管厂家联系方式

玻璃钢管厂家联系方式品牌其他型号6688材质其它公称压力2.0Mpa管子形状直管用途电线护套长度6m  中国从七几年,开始小批量生产玻璃钢管,经过20多年的研制及工程实际应用情况表明,我国玻璃钢管道工业发展比较缓慢。与发达国家相比,在原材料、工艺装备、技术管理、工程设计、产品标准、施工规范、应用范围等方面都存在很大差距。  树脂  国外FRP管用树脂性能高、品种全、系列化;间苯型不饱和聚脂已占30

谷雨气祝福短信

谷雨节气祝福短信1.谷雨贵如油,滴滴消忧愁,春风拂绿柳,缕缕绕心头,白云荡高楼,朵朵开笑口,愿我的问候把祝福送到你手头,把快乐种在你心头。2谷雨的播种在开始,明日的收获在期待。春天的故事在萌芽,夏日的清凉在期待,幸运的祝福为你在传递,祝你笑颜常开,好运常伴!3洒下幸福的谷雨,愿你的`人生美好如意;洒下吉祥的谷雨,愿你的生活事事顺意;洒下安康的谷雨,愿你的身体康健美意;洒下欢乐的谷雨,愿你的脸上挂满

热门专题

易捷尔高职单招|易捷尔高职单招,易捷尔高职单招培训,单招分数线,单招录取分数线,高职单招学校分数线
易捷尔高职单招
安徽中源管业有限公司|安徽中源管业有限公司,安徽中源管业有限公司介绍,安徽中源管业有限公司电话,安徽中源管业有限公司地址,安徽中源管业有限公司厂家,安徽中源管业有限公司电力管,安徽中源管业有限公司管材
安徽中源管业有限公司
金诺幼儿园(春城路金诺幼儿园)|昆明官渡区幼儿园,幼儿园报名,官渡区幼儿园,春城路幼儿园,幼儿园招生,学前班,昆明幼儿园,金诺幼儿园,环城南路幼儿园,石井路幼儿园
金诺幼儿园(春城路金诺幼儿园)
小程序开发|微信小程序,小程序开发,小程序,小程序制作,微信小程序开发,小程序公司,小程序开发公司,分销,三级分销系统,分销系统
小程序开发
安徽开放大学|安徽开放大学报名,安徽开放大学报考,安徽开放大学,什么是安徽开放大学,安徽开放大学学历,安徽开放大学学费,安徽开放大学报名条件,安徽开放大学报名时间,安徽开放大学学历,安徽开放大学专业
安徽开放大学
云南综合高中|云南综合高中
云南综合高中
开放大学|开放大学报名,开放大学报考,开放大学,什么是开放大学,开放大学学历,开放大学学费,开放大学报名条件,开放大学报名时间,开放大学学历,开放大学专业
开放大学
天麻的功效与作用吃法|天麻的功效与作用,天麻的功效与作用吃法,天麻炖什么治头痛最好,天麻的功效与作用禁忌,天麻多少钱一斤,天麻的功效与作用吃法及禁忌,天麻怎么吃效果最好,天麻粉的功效与作用,天麻怎么吃
天麻的功效与作用吃法

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部