七周成为数据分析师:手把手打造 BI 数据可视化

作者:秦路 微信公众号:秦路(ID:tracykanc)

本文是如何七周成为数据分析师的第六篇教程,如果想要了解写作初衷,可以先行阅读七周指南。温馨提示: 如果您已经熟悉 BI,大可不必再看这篇文章,或只挑选部分。

我们上一篇数据可视化:教你打造升职加薪的报表教大家如何制作清晰美观的报表以及相应技巧,但是报表是结果的呈现,并不是数据分析的过程。

数据分析师更多用到的报表是 BI。

BI 全称商业智能(Business Intelligence),在传统企业中,它是一套完整的解决方案。将企业的数据有效整合,快速制作出报表以作出决策。涉及数据仓库,ETL,OLAP,权限控制等模块。

今天的学习我们只着重于数据分析过程,使用 Power BI 打造数据分析师 Dashboard 报表。为了更好的学习和实践,我们依旧会使用数据分析:手把手教你 Excel 实战的数据进行操作。这是做出的简单作品。

 
 
 

Power BI 在微软官网有下载(注不注册无所谓的),只需要下载 Desktop 桌面操作版,大小约 120MB。暂时只推出 Win 版本。

大家如果在下载过程中出现 CAB 文件损坏错误,大概是某软哪方面又出错了,可以换浏览器下载,也可以下载中文繁体版。反正我是一直报错。

为了方便大家偷懒,可以在会话页发送关键词「BI 下载」获取官网下载地址。

什么是 Power BI

BI 工具主要有两种用途。一种是利用 BI 制作自动化报表,数据类工作每天都会接触大量数据,并且需要整理汇总,这是一块很大的工作量。这部分工作可以交给 BI 自动化完成,从数据规整、建模到下载。

另外一种是使用其可视化功能进行分析,BI 的优点在于它提供比 Excel 更丰富的可视化功能,操作简单上手, 而且美观,如果大家每天作图需要两小时,BI 会缩短一半时间。

BI 作为企业级应用,可以通过它连接公司数据库,实现企业级报表的制作。这块涉及数据架构,就不深入讲了。

Power BI 是微软家的。如果大家熟悉 Excel,应该会知道微软推出的 Power Query、Power Pivot、Power View

和 Power Map,是 Excel 上非常强大的四个插件。Power BI 则是微软将它们作为集合推出。

Power Query 是用于数据提取、整合、搜索的插件。它偏向数据模型的建立,而不是单元格的使用。

Power Pivot 是数据透视表的高级应用,使用 DAX 能进行大量的科学计算。性能方面,比 Excel 函数要快两个量级,百万级的处理不成问题。

Power View 是图表的高级应用,实现了过滤、联动、拖拽等功能。

Power Map 是可视化地图。

如果大家熟练掌握以上四个插件,那么在 Excel 上也能实现部分 BI。毕竟 Excel 是企业中人手一款的工具,和

BI 相比有轻量级的好处,虽然数据分析师需要掌握的工具更多。

BI 的步骤

市面上有很多丰富的 BI 工具,Tableau,QlikView,BDP 等,各有侧重,也各有价格。但是操作过程都是相似的,大体分为五个步骤:数据源读取、数据清洗、数据关联、图表制作、Dashboard 整合。熟悉了其中一个, 再学会另外的就不难。

因为我工作用的 BI 是私有化部署到服务器,直接连接生产环境的,演示不方便。所以才用 Power BI 演示,实际我也说不上熟练。

数据源读取

我们打开 Power BI,它会让我们登录,不用管它。

 
 
 

界面和 Office 软件比较接近。上面是操作工具项,左侧栏是导航栏。

Power BI 的左侧导航栏对应三个模块:仪表板、报表和数据集。仪表板或报表需要数据才能操作,我们先读取数据集。

点击工具栏的取得资料(奇怪的翻译)。

 
 
 

Power BI 支持各类丰富数据源(市面上绝大部分 BI 都支持,只是读取方式略有差异),除了 Excel 和 CSV 文件,它还支持 Acess、SQL 数据库、Hadoop/HDFS、Spark、第三方 API 等。

这是新手教程,连接 CSV 即可,选择载入练习数据 DataAnalyst。

这里可以针对数据编辑,先略过,选择载入。

自动跳转到数据报表页,数据报表(Report)是数据规整和清洗过程。

大家还记得实战篇中演示的数据清洗吗?之前我们体验了一遍 Excel 函数清洗的过程。这次需要用 BI 再进行一遍清洗。数据清洗是分析师最蛋疼且耗时持久的工作,没有之一。

数据清洗

Power BI 有一个高级功能叫 DAX(Data Analysis Expressions),它是整个 Power BI 使用的公式语言。

DAX 近似 Excel 函数(大多数第三方 BI,函数均接近 Excel),故它针对新手非常友好。如果大家已经熟悉Excel 函数,上手速度会很快。基本上函数名字都一样,如果不熟悉,可以查阅官网提供的文档。

我们先清洗报表中的薪水 salery,和实战篇过程一样,需要将其拆分成两个新列,并且计算平均值。

点击模型项的新建资料行(这里的翻译应该不对,应是 column 列,后文我都用列表示),此时新增加的列没有任何内容。我们需要做的操作就是以 salery 生成两列。

 
 
 

这里需要用到 DAX。当成函数使用它就行,不过 Excel 是单元格级别的引用,而 DAX 中的任何引用、计算、汇总等,都是以列为单位的。

='Table Name'[ColumnName]

这是最简单的引用,Table Name 是我们这张报表的名字,我载入的 csv 叫 DataAnalyst,那么报表就叫做DataAnalyst,ColumnName 是我们需要引用的列,名字叫做 salary。下图公式就是范例。

 
 
 

如果表名中有空格,需要加引号,如果没有则不需要。如果是跨表引用,TableName 是必须的,否则只需要

ColumnName。DAX 支持自动填充,可以通过模糊输入+回车快速输入。

我说过它近似 Excel,那么 Excel 加减乘除的习惯可以直接使用在上面。

='Table Name'[ColumnName1]+'Table Name'[ColumnName2]*3

接下来继续清洗步骤,我们查找 k 所在的字符串位置。

=search("k", DataAnalyst[salary],1)

利用 left 函数截取工资下限。

=left(DataAnalyst[salary],search("k", DataAnalyst[salary],1)-1)

 
 
 

搞定。资料行重命名为 bottomSalery。接下来是工资上限 topSalery,使用"-"截取的时候报错了。

=search("-", DataAnalyst[salary],1)

检查一下发现原来是有10K 以上这类字符串。DAX 查找不到-,这时需要返回一个出错时表达的值。因为

10k 以上的描述无法确定工资上限,那么我们就把返回的值限定为 bottomSalery。

在这里请记住,DAX 的容错性比 Excel 低,只要 DAX 中有一行返回 Error,那么整列都是 Error。我们需要用Iferror 函数保证容错性。

这里给出 topSalary 的计算,比较繁琐。

topSalery = IFERROR(mid(DataAnalyst[salary],SEARCH("-",DataAnalyst[salary],1)+1,LEN(DataAnalyst[salary])- SEARCH("-",DataAnalyst[salary],1)-1),DataAnalyst[bottomSalery])

之后新建一列使用(DataAnalyst[bottomSalery]+DataAnalyst[topSalery])/2 计算该岗位的平均工资。大家看到这里,是不是觉得 DAX 公式非常长?新手可以多增加辅助列来进行计算。

Excel 中有比较方便的分列功能,那么 Power BI 中是否拥有呢?答案是肯定的,右键点击列,选择编辑查询选项。

 
 
 

这里依旧吐槽翻译。分割资料行就是我们熟悉的分列功能。选择自定义,用-即可完成分列(原始数据会被拆分,所以建议先复制一列)。

 
 
 

实战篇提到过,我们的北京数据是有重复值的,那么我们通过 positionId 这职位的唯一标示,来删除重复项。右键点击移除重复项目即可。

我们再看一下查询编辑的其他功能。

 
 
分组依据可以认为是数据透视表。可以选择多个字段进行分组。对结果进行求和、计数等操作。

如果是订单、用户行为、用户资料等大量数据,一般会以分组形式进行计算。不同分组字段,会生成不同的维度,像范例中的城市、工作年限,教育背景都是维度,也是图表的基础。如果生成的维度足够多,我们能利用维度组成数据模型,这是 OLAP 的概念。

除此以外,也能利用过滤直接筛选数据。我们选择出含有数据分析、分析的数据。排除掉大数据工程师等干扰职位。

 
 
 

这里支持多条件复杂逻辑筛选。

到这里,我们已经完成实战篇中的清洗过程中,我这次简单化了。以上步骤都能通过右侧的套用步骤还原和撤销。这里不会出现 bottomSalery 这类列。

 
 
 

之后选择工具栏的关闭并套用,报表数据就会更新。最后数据 2300 多行。

通过数据查询和报表 DAX 公式,我们就能完成数据清洗和规整的步骤。主要思路是:移除重复值、过滤目标数据、清洗脏数据、数据格式转换。

数据关联

我们工作中会用到很多数据,不可能依靠一张表走天下。若是在 Excel 中,我们经常用 Vlookup 函数将多张表关联汇总。Power BI 则用拖拽关联数据,更方便。一般是先关联再清洗。

因为我的数据只有一张表,用不到关联,以官网截图为例。

 
 
 

很简单,用拖拽将 Product 的 manufactureId 和 Manufacturer 的 manufactureId 关联,我们可以理解成做了

vlookup 引用,也可以想成 SQL 的 Join。

分析会涉及到很多复杂因素,这些因素相关的数据不会安安静静给你呆在一张表里,而是不同的表,所以需要用到数据关联。

数据关联在学习到 SQL 后会更加清晰,这是 SQL 的核心概念之一。

图表

进入图表设计阶段,点击侧边栏第一个项。BI 比 Excel 好的地方在于,它只要拖拽就能设计和生成。

 
 
 

点击任一图表,画布上会自动生成图形,要切换图表类型直接点击其他即可。我们把城市和平均工资拖拽到视觉效果下的栏目,它会自动生成图表。不同图表需要的维度、轴都不一样,具体按提示进行。

 
 
 

视觉效果下有设计选项,可以将图表调整的更美观,这里不详细介绍了。

点击新增视觉效果(继续吐槽翻译),可以继续在画布上增加图表。绝大部分 BI,都是支持联动的,所谓联动,通俗讲,就是点击图表上的维度元素,其他数据也会按此维度相应变化。

 
 
 

上图就是一个很好的联动例子,点击城市维度的北京,其他图表都变了,平均工资由 14.23 变成 15.23。而学历则变成突出显示,显示出了北京的博士们薪水远高于平均水准。

图表联动带来更好的数据洞察,将不同数据维度的组合和选取,为分析师带来决策能力的提升。当然我最喜欢的特点之一是省时间。

通过不断的图表组合,就能生成数据分析师自己的分析画布。这块画布叫作 Dashboard。当然图表好看与否, 就取决于分析师的设计品味了(这个我教不了你们,哈哈)。

 
 
 

如果维度过多,大家可以插入视觉选项中的交叉筛选器,添加过滤功能,常用于精细化的分析,例如时间维度。图表右上角按钮,还能选择导出数据,导出一份该图表的 csv 数据。

我们也能将其发布到网上,作为同事和企业间协作,或者手机端浏览数据用。当然这里需要注册账号,就看大家意愿了。

更多功能留待大家学习,到这里,Power BI 的新手教程就结束了。我列举了常用的功能,不知道大家有没有从Excel 图表水平跃升到一个新阶段,大家可以自己拿数据做图表报告作为分析师行业的敲门砖。如果还有疑问, 就借助官网文档学习,BI 作为一个领域,它值得数据分析师深入。

以下是一些补充:

范例

因为时间的关系,我没有讲解更多的样式设计内容。大家可以去官网下载范例,含有原始数据练习。主要是学习他人的报表汇制思路。

 
 
 

另外 Power BI 的图表偏少,类似标靶图、箱线图都没有。不过官网有各类图表下载。搜索 pbiviz 即可,没有中文。

 
 
 

R 集成

Power BI 在它内部已经集成了 R 语言,没错,就是统计学中的 R 语言。如果你觉得视图功能还不够强大,那么我们可以利用 R 来绘制图表,甚至借助 R 做回归分析等。当然 R 是第七周的内容。这里只以官网截图为例。

 
 
 

数据更新

BI 很重要的一个功能是数据更新,它是报表自动化的基础,它通常和 SQL 关联。我们使用 CSV,只能往里面黏贴数据更新,还是繁琐了些,只属于半自动化。这将在学会 SQL 后解决。

最后祝大家春节快乐,新的一年心想事成。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

热门产品

短视频/直播电商部门岗位职责及绩效考核指标管理实施办法|短视频运营岗位职责,直播电商部门管理,直播电商部门绩效考核,短视,频/,直播,电商,部门,岗位职责,绩效,考核,指标,管理,实施办法
短视频/直播电商部门岗位职责及绩效考核指标管理实施办法
在线药店设计书(范文)|在线药店设计书,在线药店设计,在线药店,在线,药店,设计书,范文
在线药店设计书(范文)
x升电子有限公司商务网站项目设计书|商务网站项目设计书,商务网站项目,商务网站,瑞升电子有限公司,x升,电子,有限公司,项目,设计书
x升电子有限公司商务网站项目设计书
必通网上考试书店项目设计书(范文)|必通网上考试书店项目设计书,网上考试书店项目设计书,网上考试书店项目设计,网上考试书店项目,必通,网上,考试,书店,项目,设计书,范文
必通网上考试书店项目设计书(范文)
(有详细评估的范文)E-WORK网络实习平台及线下实习教育|网络实习平台,线下实习教育,E-WORK网络实习平台,详细,评估,范文,work,网络,实习,平台,线下,教育
(有详细评估的范文)E-WORK网络实习平台及线下实习教育
(范文)网上内衣店项目设计书|内衣店项目设计书,网上内衣店项目设计书,内衣店项目设计,范文,网上,内衣,项目,设计书
(范文)网上内衣店项目设计书
**鞋业公司  开拓电子商务和校园市场  营销策划方案|鞋业营销策划,鞋业营销策划方案,**,鞋业,公司,开拓,电子商务,校园,市场,营销策划,方案
**鞋业公司 开拓电子商务和校园市场 营销策划方案
视频伪原创处理:短视频搬运处理方法步骤及图文视频深度创作处理|视频搬运方法,视频搬运技巧,视频伪原创,图文视频技巧,搬运,视频,处理,步骤,图文,原创,短视频搬运,短视,方法,深度,创作
视频伪原创处理:短视频搬运处理方法步骤及图文视频深度创作处理

历史上的今天:04月19日

美业发朋友圈的小套路-讲稿

美丽誓颜的小伙伴们,大家早上好!一日之计在于晨,利用宝贵的晨间时间, Nicole 老师想跟大家分享一个发朋友圈的套路。我们做微商一路走过来,会遇到不同的人,也会招到不同的代理,有些代理能力很强,朋友圈发的内容都是原创,很有新意。对他们来说,遇到了美丽誓颜这个机遇,仿佛打开了新世界的大门,把自己很多灵感都转化成了充满创意的朋友圈; 也有一些代理,有很多好的 idea 却不知道怎么转化成适合发圈的文

热门专题

云南综合高中|云南综合高中
云南综合高中
综合高中|云南综合高中,昆明综合高中,综合高中能考本一吗,综合高中和普通高中的区别,综合高中是什么意思,综合高中能参加全国统一高考吗,综合高中可以考哪些大学,综合高中的学籍是什么
综合高中
国家开放大学|国家开放大学报名,国家开放大学报考,国家开放大学,什么是国家开放大学,国家开放大学学历,国家开放大学学费,国家开放大学报名条件,国家开放大学报名时间,国家开放大学学历,国家开放大学专业
国家开放大学
一年制中专|中专学历,中专是什么学历,中专是什么,中专有什么专业,中专升大专,一年制中专
一年制中专
云南网站建设|云南网站制作,网站建设,云南网站开发,云南网站设计,云南网页设计,云南网站建设公司,云南网站建设
云南网站建设
大理科技管理学校|大理科技管理学校,大理科技,大理科技中等职业技术学校,大理科技管理中等职业技术学校,大理科技学校
大理科技管理学校
安徽中源管业有限公司|安徽中源管业有限公司,安徽中源管业有限公司介绍,安徽中源管业有限公司电话,安徽中源管业有限公司地址,安徽中源管业有限公司厂家,安徽中源管业有限公司电力管,安徽中源管业有限公司管材
安徽中源管业有限公司
云南巨榕教育投资集团有限公司|云南巨榕教育投资集团有限公司,巨榕教育集团,巨榕教育
云南巨榕教育投资集团有限公司

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部