MPP数据库技术及其在电信、金融行业的大数据应用

MPP数据库技术及其在电信、金融行业的大数据应用
2021年11月02日16:41:30 0 530

2014年8月27日,中国信息协会大数据分会成立暨第一届中国大数据产业发展大会在唐拉雅秀酒店召开,南大通用作为大数据分会的理事成员受邀参加了此次盛会。南大通用高级副总裁赵伟先生在会议上做了关于MPP数据库技术及其在电信、金融行业大数据应用的精彩主题演讲。以下为演讲的精选部分。

有着悠久的历史的MPP数据库技术

提到MPP,可能在座很多来宾相对比较陌生,觉得他是不是像Hadoop一样是基于大数据技术一种比较新兴实验性的新的数据库技术。实际不是这样,MPP数据库技术实际上是一个有着20年以上历史成熟的稳定的一个有非常坚实理论基础的技术。这个老先生是数据库行业老前辈,JimGray,他在1998年获得我们计算机行业的诺贝尔奖、图灵奖。Jim先生在98年获奖感言中就很清晰的预测了大数据时代来临,他说未来每18个月所产生的数据量将是有史以来数据量的总和。进入到21世纪已经很清晰地验证了Jim先生提到的预言。作为大数据技术中较为核心的数据库技术,我们如何应对这种大数据的需求呢?Jim先生在他更早1992年发表于美国计算机协会期刊一篇论文中清晰的指出高效能数据库未来解决之道就是并行数据库处理技术。我们现在的各种MPP产品,其中90%以上的理念其实都来自于这篇论文,里边都给出了非常清晰的描述。因此,MPP数据库技术实际上是有着悠久历史的成熟的坚实的理论基础的数据库技术。

具体什么是MPP?实际上MPP就是一种大规模的并行处理的集群系统。他由一系列的松耦合处理单元组成,每个单元有自己独立计算CPU资源、内存资源、存储资源。从Oracle的传统数据库到新型数据库,还有Hadoop的NoSQL数据库,在处理海量数据场景下,他都要部分或者全部来采用MPP技术,来应对海量数据高效处理。

MPP在大数据技术宏观架构中的定位

我们一般把一个大数据的架构分为基础设施层,数据采集层,数据处理层和应用层。MPP数据库是和事务处理交易型数据库、流式数据库一起构成大数据平台和解决方案的数据处理层。 为什么在大数据时代大量的数据库产品和解决方案中要采用MPP技术呢?Jim先生提到数据库的发展来自两方面推动,第一是存储等硬件设备发展,第二是用户需求的推动。而MPP数据库进入商品化同样也来自于这两方面的因素,首先从MPP所依托网络、服务器操作系统来看,互联网的发展使得我们可以享用网络带宽,从千兆、万兆,到4万兆网络。交换机与网卡价格不断下降,网络上性价比不断提升。从服务器上来看,基于X86已经越来越小型化,多核技术,上T级的内存,采用冗余电源等高可靠的措施。操作系统上Linux系统不断发展,对多线程内核,高效的文件系统加入使得Linux可以达到过去Unix承担支撑数据库软件这样的任务,这是从硬件环境上。用户需求上大数据时代来临,数据量爆炸式增长,使得传统架构数据库已经无法满足用户存的下、算得出两个基本要求。因此,硬件环境的具备和大数据时代用户需求,这两个因素共同推进了有着悠久历史的MPP数据库技术开始落地,商品化进入市场。

总结一下MPP数据库应用方向,第一是海量数据查询,统计、分析。第二就是TB级的,多维体、立方体的数据挖掘。第三就是百TB级的数据仓库。第四就是边入库,边信息查询信息安全TB级,这些是主要的产品下的应用范围。

结合传统数据库,我们认为真正的有效的使用大数据架构,往往是混搭体系。他结合各种技术,各自优势,以Hadoop这种数据库处理半结构化、非结构化,低价值密度数据。高价值密度结构化数据进行复杂数据海量分析,这样的混搭架构是比较合理的大数据平台架构。

MPP数据库技术支撑电信行业大数据应用

在电信行业实际上运营商已经开始把大数据视为他的战略资产,他面临问题主要是一个是规模庞大,第二是查询复杂,除了结构化数据之外,他们已经开始对半结构化、非结构化数据进行整理查询。第三就是集体查询多,由于电信运营商大量采用集中式管理模式,地市同样有分析的需求,在省级的经分上派一些终端给地市级的用户,80%在经分系统的查询可能是集体查询,无法实现优化。这是电信行业对支撑大数据平台具体几个方面的需求。

结合这些需求,实际上我们根据我们的工程实践看,在中国移动、中国联通、中国电信三大运营商都可以利用MPP产品进行底层支撑。具体分享一个案例,这是中国运营商某省的云化经分系统,7200万用户,超过西方大多数国家人口数。其中传统数据库构建经分系统其处理能力现在存储200多T,达到存储上限。无法满足他下一步对精细化管理和精准营销需求,客户提出改用X86架构开放平台云化方案,把他过去经分系统进行改造,所谓云经分。根据南大通用和集成商一起沟通最后的架构是这样,采用混搭架构,把整个平台分为应用支撑层、数据处理层。应用支撑层搭建这样的模块,进行简单清晰、整理、加工,以MPP数据库作为数据处理层中心库,在里面完成所有的KPI报表,数据集市、营销平台等多种分析应用。整个库里要存储三万多张表,每天运营900多个日常作业。最后提出一种解决方案,用户原有使用3台IBM小机运行DB2的,把它虚拟成若干台虚拟的小机进行计算。采用南大通用的产品之后,仅用18个节点X86服务器+MPP数据库集群,总体数据存储容量已经达到500T以上。在这种业务场景下我们总结他可以体现出MPP产品的几个关键价值,第一就是低成本高性能,用过去客户1/30成本达到同样竞争效果。第二就是高可扩展性,过去传统架构下你两三百T已经达到小机+阵列+存储上限,很难进行纵向扩容。我们开放式架构,随着数量增加,已经扩容到26台,始终可以保证随着数量增加,只要你适当增加,最终整体处理性能不变。第三是高可用性,其中任何一个节点损害,整体停止服务。MPP引入机遇副本,任意节点损害,不影响服务。第四是任何技术的引入实际上最重要就是为业务服。他最大的价值还在于通过这样新型去IOE化的技术引入,使得用户业务系统可以支撑他精细化管理和精准营销这样的业务目的,这是在去IOE化更大的价值。

MPP数据库技术助力金融行业成功实现去IOE

金融行业以四大行为例,数据达到PB级规模。他们存在问题就是非常受制于国外产品,特别是存储上,仅每年维护费用10亿元以上规模,当构建整体总行的数据仓库的时候,必然要考虑这个因素。其次就是他们的查询更加复杂,单一业务系统还可以处理,当你出现跨专业、跨科目、跨区域的联合查询时,其复杂度超出他的处理范围,数据规模超出原有数据中的处理范围。

在四大国有行,股份制银行,地方商业银行这样的各种大小规模系统内,通过引入MPP数据库可以构建像包括数据中心、风控审计、日志分析和报表支撑一系列的基于海量分析和服务。某国有传统的使用国外产品已经从存储规模和计算机性能上无法满足他构建更大规模数据平台需求,因此他吸收开放架构和国产软硬件搭建一个支持T数据大的数据平台作为他总行级的数据仓库。南大通用为客户提供100节点大规模数据集群,存储500T数据,每天运行4000个以上作业,大表超过千亿行,该表增加量为每天10亿。最初银行卡业务之外,不断叠加像风控、反洗钱,加上50多个业务跑到这个平台上。

这个案例中我们总结有这样几点,首先为用户提供一个可用真正的容纳500T数据的统一视图,完成他真正的总行级的数据仓库使用。我们通过的这个案例是首个实现四大国有行级别的金融核心系统的国产化替换案例。证明了完全采用国产软件、硬件平台来构建大数据处理平台,是可以满足顶级金融系统的需要。比如这种国产化的可行性是被得到认可的,从而为咱们国家在金融行业国产化替换提供一个非常好的榜样,打开一个口子。这个是除了技术进步之外,更多体现出了这个案例的价值。

点赞(0) 打赏
weinxin
微信客服
问题+文章链接,发送到jyhcc95,咨询处理。
《麦肯锡方法》| 成甲解读,麦肯锡方法 信息快餐

《麦肯锡方法》| 成甲解读

关于作者 艾森拉塞尔,曾担任麦肯锡公司咨询顾问,服务过的客户包括金融、电信、计算机和消费品等领域的众多知名公司。 关于本书 麦肯锡是世界顶级的管理咨询公司,全球排名前100家公司中...
新年文案,20句,高级,且不,重样,新年,文案 信息快餐

20句高级且不重样的新年文案

20句高级且不重样的新年文案1.辞暮尔尔,烟火年年。2.心之所向,行之可往。3.奉上满怀热情,只愿百无禁忌。4.眉目伊始,可爱如斯。5.新年,心纳吉,万事欣,岁安平。6.所爱如山海...
历史上的疫情,历史,疫情,中的,鉴往知来 信息快餐

【历史篇】“疫情”中的历史 鉴往知来

【历史篇】“疫情”中的历史 鉴往知来2020的“开学季”,被一场突如其来的疫情按下了暂停键。在这场“全民防疫攻坚战”中,潍坊新华中学的老师们不但通过线上课程对学生开展张弛有度地学科...
丧偶式婚姻,7年,丧偶,婚姻,老公,简直,自私,极致 信息快餐

7年丧偶式婚姻,老公简直自私到极致

7年丧偶式婚姻,老公简直自私到极致早上起来看到洗碗池里的餐盘,内心只有一遍遍的失望,他永远都是那么自私,每次吃饭他只拿自己的碗筷,洗碗只洗自己吃的,洗衣服也是永远只把自己的衣服放进...

评论列表 共有 0 条评论

暂无评论