跳至正文

【数据分析】用Tableau学习直方图📊

在Tableau的初级可视化分析中,我们有很多种初级视图的可视化方式,比如条形图(柱状图)、直方图、饼图、折线图、气泡图、圆视图、标靶图、压力图、树地图等等。Tableau所能展现的远远超过Excel所能展现的三大图(柱状图、折线图、饼图),而且可定制化的程度更高。

Screen Shot 2019-02-25 at 9.06.15 AM

今天我们特别分享一下直方图(histogram),我经常称之为大数据高级分析第一图。大数据分析区别于一般分析的重要工作之一是看大数据的分布,而直方图提供了直观、简洁的方式,提供单个度量的分布分析。

在此,我分享直方图的知识和Tableau用法。

1、「中心极限定理」到「大数据分析」

在相当长的历史来看,数据分析从抽样调查开始,不管是一个国家的人口调查,还是企业的会员满意度分析,因此,数据分析的重要使命就是从抽样数据的特征来推断总体数据,所以,统计学有时候具有“一叶落知天下秋”的魔术般的力量。

对于具备统计学知识的人而言,上面的理论是不言而喻的;但是对于很多人来说,还需要知道更多。

根据中心极限定理,任意一个群体的样本平均值都会为围绕在该群体的整体平均值周围,并且呈正态分布

中心极限定理的核心要义就是,一个大型样本的正确抽样与其所代表的群体存在相似关系
1、如果我们掌握了某个群体的具体信息,就能推断出这个群体正确抽样的随机样本的情况;
2、如果我们掌握了某个正确抽样的样本的具体信息(平均数和标准差),就能对其所代表的群体作出令人惊讶的精确推理。
3、如果我们掌握了某个样本的数据,以及某个群体的数据,就能推断出该样本是否就是该群体的样本之一。

——《赤裸裸的统计学》

上面提到的正态分布(Normal distribution)又称为“高斯分布”(就是小学课本中快速计算1+2+3+……+100=3050的那位),你可以想象一个倒立的挂钟,是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。

「中心极限定理」的基本原理,支持了我们的抽样判断的准确性。这是过去几百年统计学的基础之一,但是,原理依然重要,抽样却不多见了。

为什么?

因为大数据时代,我们往往不需要费劲心思去正确地抽样,我们现在分析的对象是:所有的数据! 我们拥有所有的数据,我们使用大数据平台比如Tableau直接分析总体,减少了抽样和推导过程中的误差。

可以不用抽样推断总体特征,我们得到的就是总体特征,这是大数据分析的一大魅力。

在大数据的分析中,直方图就是特别重要的分析工具。

 

2、直方图是高级数据分析第一图

如果说柱状图是Excel的三大件之首,那么直方图就是大数据高级分析的分析第一图;利用直方图,我们可以汇总分析成千上万的数据点,清晰地看到以所有数据为样本的数据汇总呈现、数据分布、差异以及集中趋势等数据特征。

通过直方图,我们能看到:

  • 数据的波动情况;比如公司员工的年龄分布是否有明显的断层,商品的销售数量波动等;
  • 发现数据的异常断点;正态分布只是直方图的一种可能,大部分的直方图并以正态分布的规则呈现,通过直方图的波峰、波谷等信息,我们可以看到连续数据或者数据点的异常,从而找到运营数据中的线索。

 

3、多种工具制作直方图

直方图的入门可以通过Excel来实现,选择你的数据,选择“工具”-“数据分析”-“直方图”,就可以呈现出默认的直方图。 可以参考官方的教程 :创建直方图

在《深入浅出的数据分析》一书中,作者介绍了使用R语言创建直方图的方法,有兴趣地可以参考。在此我不多言——主要是我不会R语言 ……

恕我直言,我现在只会用最爱的Tableau!

使用Tableau创建直方图非常简单,如果有离散的数据点(数据),把数据拖动到“列”,然后选择“智能显现”的“直方图”即可(参考:官方教程:生成直方图);而如果是连续数据,则可以通过创建“数据痛”创建“维度”来实现(参考:官方教程:依据连续度量创建数据桶)。

当如,如果数据值本身可以作为维度使用,比如公司员工年龄分布的“年龄”字段,就可以直接使用柱状图表达直方图。例如下面的动画:

cFhRO207fr.gif

4、高级班:Tableau使用“计算字段”自定义直方图

在Tableau学习中,有一种情况是作为直方图的横轴(列字段)需要人为设定,从而更好地表达重点和分组,这就需要用“计算字段”这个高级功能,通过if函数来实现。

比如我要看销售金额的分布,直接用上面拖入数据+直方图显示的方法,数据过度集中,无法看到趋势(下图幻灯片图1),这显然不是我们想要的。如果使用数据桶呢?以500为步长,分布虽然非常规律,但是非关键数据影响了数据焦点(下图幻灯片图2),左侧的数据是负数(退货等出现的销售金额为负)。

如何自定义直方图的维度字段呢? 我们可以使用“计算字段”,根据需要设定维度,比如说,以250、500和1000为分界线,分为11个区间。呈现结果如下图3。

计算字段也非常容易,使用if函数设定了汇总维度,

屏幕快照 2017-09-19 上午10.53.00

是不是比你想象的要简单很多,至少比R语言要简单的让人掉泪了——即便我学习过Java也会如此评价。

 

总结

这么看来,Tableau的优点就显而易见了,它比Excel要高级的多,多种呈现方式,使用不同的数据特征和场景,还可以完整的自定义,语法也简单得没有朋友;而相比于R语言,Tableau又显得如此的年轻和帅气,拖拽、所见即所得、漂亮如彩虹般的色彩搭配和定制化,简直就是活脱脱地混血美少年。

快来学习吧,我只用了两个多月,工作之余学习的啊。

 

附:

相关知识来源:

  • 《人人都是数据分析师–Tableau应用实践》第4章
  • 《深入浅出数据分析》第9章
  • 《赤裸裸的统计学》第9章

官方指南:

我的Tableau实操练习手册

 

2017年9月19日 /9月20日revise


了解 喜乐君 的更多信息

订阅后即可通过电子邮件收到最新文章。

了解 喜乐君 的更多信息

立即订阅以继续阅读并访问完整档案。

Continue reading