Skip to content

Latest commit

 

History

History
541 lines (273 loc) · 44.6 KB

117.精读《Tableau 探索式模型》.md

File metadata and controls

541 lines (273 loc) · 44.6 KB

1. 引言

Tableau 探索式分析功能非常强大,各种功能组合似乎有着无限的可能性。

今天笔者会分析这种探索式模型解题思路,一起看看这种探索式分析功能是如何做到的。

2. 精读

要掌握探索式分析,先要掌握探索式分析背后的思维模型。

理解数据

有分析意义的数据一般是表结构,即分为行与列,列定义了数据含义,行则构成了数据明细。

当我们将数据作为 “原材料” 使用时,需要将这些明细数据封装为 “数据集” 的概念来理解,数据集概念中,数据就是一个个字段,对于字段,要理解 “维度” 与 “度量” 这两个概念。

维度

维度是不能被计数的字段,一般为字符串或离散的值,用来描述数据的维度。

度量

度量是可以被计数的字段,一般为数字、日期等连续的值,用来描述数据的量。

我们首先要将数据集字段归类到维度与度量,才能提高数据分析的效率。数据分析就是从不同维度下看度量值,先想清楚要看的是什么数据,比如销量还是利润?这些字段都属于度量,然后想一想要怎么看这些度量,是看总数、拆解到年看、还是按地区看呢?这些字段都属于维度。

维度和度量是可以单独看的,如果单看维度,那只能看这个维度的明细,比如看 订单日期 这个字段

需要注意的时,维度与度量字段还可以分为 连续 与 离散 。

连续 

值是连续关系,即任意两个值之间可以计算差值。

离散 

值是离散关系,即任意两个值之间无法计算差值,无法以连续的方式去理解。

**一般来说,维度字段都是离散的,度量字段都是连续的。**从字段类型意义上也能得出相同的结论:维度字段一般为字符串或日期类型,字符串类型都是离散的,度量字段一般为数字类型,数字天生就可以连续。

值得注意的是,连续与离散其实与字段类型、维度度量并无关系,比如维度的日期字段就是可连续的,而就算是字符串类型,也可以以字符串长度等方式 “定义” 一种连续的计算方式。对数字类型的度量字段来说,我们也可以忽略数字之间的联系,将数字看待为字符串,这样数字之间就是离散的。

上图的 “离散方式看日期” 就是看维度的直观方式,但仍可以用 “连续方式看日期”:

离散方式下单看维度只有一条条数据,数据间并无排序规则,而以连续方式看维度,维度就会以某种方式排序:比如上图以时间类型进行排序。此时展示方式也从表格切换为了柱状图,因为表格适合展示离散数据,柱状图的一根柱子就可以展示连续数据。

单看度量时,由于 度量要依附于维度展示,因此仅有度量时,只能看这个度量的 聚合 概念:

如上图所示,单看销量这个度量字段时,我们只能将数据集中所有销量字段聚合在一起来看,但这种聚合方式也可以分成若干种计算类型 - 求和、平均值、中位数、计数、计数去重、最小值、最大值、方差等等:

这些能力之间都是 “正交” 的,即单看度量这一个字段,可以以这么多种类型进行计算,那么按维度拆分后,度量依然可以享受如上不同的计算方式。

也可以用连续方式看度量:

与连续-维度不同,连续-度量图形中除了最后一个值,其他过渡数值都是无效的,因为连续-度量只有一个值。连续-维度也要注意,由于以连续的方式画出图形,中间不存在的点也被 “无缝连接” 了。

数据之间也可以存在父子级关系,有父子级关系就可以进行上卷下钻了,这种父子级关系被称为 “层系字段”:

上图的 Orders 就是一个层系字段。层系字段是几个字段的排序组合,由上到下依次构成下钻关系,从下到上则是上卷的关系。

层系

**只有维度字段才能有层系,**因为度量是不能被拆分的,只有维度才可以被拆分。

维度的拆分可以是有逻辑含义的,也可以是任意的。

有逻辑含义的层系 

最典型有逻辑含义的层系字段就是时间了。一个好的 BI 系统识别到日期字段后,应该将拿到的日期字段进行归类,比如判断日期字段粒度到天,则自动生成一个日期层系字段,自动聚合到年,并允许用户随意切换:

如果数据集字段值精确到月,则层系只能最多展开到月。

日期层系的逻辑含义在于,年、季度、月、天这种下钻关系是天然从大到小的关系,符合自然理解。

任意层系 

如果层系字段不代表日期,就只能以业务含义组合层系字段了。比如可以将层系按照 订单日期 -> 商品 ID -> 运货日期的方式组合:

这种下钻方式,可以看到每个订单日期下有哪些商品,每个商品分别运货日期是什么。

也可以按照商品 ID 拆分出不同的订单日期与运货日期,这种层系组合方式就是以商品 ID 为主要视角:

可以看到,不同思维角度会按照不同的方式组合层系。比如一家大公司要查看财务问题,维度有:BU、日期,度量有:销量。

那么有两种下钻方式:BU -> 日期、日期 -> BU。无论哪种下钻方式,都能看到每个 BU 按日期销量的明细,但 BU -> 日期 能看到每个 BU 按日期聚合的总销量,而 日期 -> BU 能看到不同日期按 BU 聚合的总销量,前者更易对比出 BU 之间差异,后者更易对比出日期之间的差异。

理解配置

配置是探索式分析的入口,要理解分析模型首先得理解配置模型。

Table 主要配置分为行、列、标记与筛选。通过这四个配置区域可以组合成千变万化的数据洞察模型。既然如此,让我们看看这种配置思路是什么,以及为何这四种配置相互组合就能覆盖整个探索式分析场景?

我们不需要考虑三维数据分析场景,因为三维透视的关系,图形丢失了精确大小关系,没有精度的数据是没有分析价值的。由于在二位平面中分析数据,大部分图表都可以用 “行、列” 方式进行配置

也许有人会问,为什么不用维度与度量替代行列呢?这是一个很好的问题,有数据分析经验的人会站在维度与度量角度思考问题,因此对于任意图表,只要配置维度、度量即可呀?笔者从三个方面说说自己的理解:

  1. 探索式分析思路中,不关心图表是什么,也不关心图表如何展示,因此图表是千变万化的,比如折线图可以横过来,条形图也可以变成柱状图,因此 你将维度放到列,就是一个柱状图,你将维度放到行,就是一个条形图 。
  2. 将精力真正放到你要拖拽的字段上。由于字段已经有维度、度量的区别,配置区域就不要再限定维度与度量了,减少理解成本。
  3. 维度与度量可以同时放在行或列上,这是探索式分析的另一个精髓能力,看下图:

做探索式分析功能时,要跳出思维定式:**为什么条形图的纵轴不能放维度呢?**如上图所示,如果行拖拽了两个不同的度量,那么可以出现两条线或者双轴图,但当拖拽一个维度一个度量时,可以对图表进行 分面 ,比如观察 2013 ~ 2016 年不同顾客对销量的贡献。

表格类的行、图表类的纵轴。一般建议放置度量字段。

表格类的列、图表类的横轴。一般建议放置维度字段。

如上所示,无论行还是列,都可以进行任意维度度量组合,且字段数量不限,而且可以在任何层级进行下钻。对图表来说,多个维度时需要进行分面处理:

如上图所示,将列放置两个维度字段成为柱状图,那么横轴就要同时表示两个维度,如上图所示。如果横轴还有更多的维度,可以再不断对横轴进行拆分。

横轴(列)多维度字段的顺序也会影响图表的展现。上图最后一个字段是 Category 默认是离散的,所以这个离值就决定了图表使用柱状图,图表类型由维度周最后一个字段连续或离散决定。

比如我们对调 Order Date 与 Category 会怎样?

我们得到了三个不同类目近 12 个月的趋势,之所以是折线图,因为图表的维度轴(列)是连续的。如果我们对 Order Date 进行天级别的下钻:

可以看到,下钻功能本质上就是维度轴支持对多个维度字段拆分处理。只要图表支持了维度轴任意维度字段的分面展示,那么配置端就可以将下钻按照拖了多个字段的方式去理解了。

如果我们将折线图切换为表格,会发生什么?

我们会发现,原本存在于列的 Category 被自动挪到了行,原本存在于行的 Sales 被挪到了 “标记” 区域。在正式介绍 “标记” 区域前,先理解一下为何会发生这种转变:

表格类组件是双维度组件,折线图是单维度组件。 也就是表格的行与列都是维度,而折线图横轴作为维度后,纵轴就要作为度量。上面的例子中,折线图维度有两个字段,虽然通过分面方式渲染出来了,但当切换为支持双维度的表格后, 可以将多余的一个维度挪到表格组件另一个维度区域中

而表格行与列都是维度的情况下,单元格的值就需要用 “标记” 中文本来表示,因此原折线图的度量字段自动转移到了 “标记” 区域。

标记

标记区域也采取字段拖拽的方式,即对字段进行标记。

标记区域分为 **颜色、大小、标签、详细信息、工具提示、路径。**标记正如其名,是作用于图表上的标记,即不会对图表框架有实质性影响的辅助标记信息。

对不同图表来说,影响最大的是行与列,它能决定用什么图表,如何拆分数据。而标记往往是改变图表中辅助性元素,比如文字或者颜色等等。

工具提示

不影响任何图像显示,仅仅在提示信息中新增字段信息。

对图表来说,指的是 Tooltip 提示信息增加对应的字段:

从上图可以看到,利润字段放在工具提示区域,则图表的 Tooltip 会新增利润这个字段的信息。值得关注的是,Tableau 所有图表都支持 Tooltip 包括表格:

这保证了配置统一,行为统一。

大小

控制图表大小。

对于线图,控制线的粗细;对于气泡图控制气泡大小;对于柱状图控制柱子粗细;但是对面积图与表格没有明显作用。这得益于 Tableau 将每个图表大小属性尽可能抽象出来。

文本

即直接展示在图表上的文本。

对普通图表来说,文本体现为 Label,即直接展示在图表上的文字。比如柱状图默认是没有 Label 文字的,要将对应字段拖拽到文本标记上才会出现。

这体现出与普通报表构思的不同。对普通报表来说,Label 是通过一个勾选项开启的,Label 对应的值就是图表度量这个字段的值。而 Tableau 将标签值以字段方式开放拖拽,就有了展示与值分开的可能性,可适用范围更广。

有人觉得长度和数字一定要对应上,这也是对数据理解不同导致的。Tableau 将文本(标签)列在标记里,说明文本和颜色、大小一样,都是一种附加的信息展示维度,很多时候不需要两种方式展示同一种信息,反而需要图形以更多方式以不同维度展示信息。

颜色

控制图表的颜色。

比如在度量为销量时,可以将利润作为颜色,甚至再将折扣作为文本,通过一个折线图同时看多种度量信息:

与之对比,我们可以将利润放在右 Y 轴作为双轴图达到相同的效果:

标记就是为了在不增加行、列字段数量基础上,通过颜色、大小、标签、工具提示等维度展示出额外信息。

详细信息

如果将度量拖拽到详细信息,会发现完全没有作用。因为 “详细信息” 只有拖拽维度字段才生效。“详细信息” 其实是用作下钻的,拖拽一个维度字段后,可以按照这个维度进行下钻。

如上图所示,将销售按照产品线拆解成三条线。但这三条线无法分辨,因此可以使用颜色来拆分维度:

这样就能将拆解的内容按不同颜色展示。因此, 对标记作用的字段如果是维度字段,且作用于颜色、大小、标签、详细信息时,会额外进行维度进行拆解,并对拆解后的内容进行颜色或大小区分。 

相信读到这里会有个疑问:按照维度进行拆解与维度拖拽多个字段进行字段有什么区别?我们试一下看看效果,将产品类目维度拖拽到销量所在的行,对销量进行销量维度的拆分:

可以看到,在行、列进行的多维度拆分使用的是分面策略,而在标记中对维度进行拆分使用的是单图表多轴方式来实现。

除此之外的区别在于,在标记进行的维度拆分默认作用于度量,而行列上的多维度拆分可以任意作用于维度或度量。

同时配置端要限制 能拆分的只有维度或离散状态的度量 ,也就是只有离散状态的字段可以被拆分。如上图所示,我们不能将 Category 拖拽到 Sales 右侧,除非将 Sales 设置为离散类型。 Tips:Tables 对维度与度量分别分配了蓝色、绿色,当我们将绿色度量字段设置为离散类型时,这个度量字段会变成蓝色,也就是当作了维度字段进行处理。

最后,标记区域不仅能拖拽字段,还可以单击后修改详细配置,比如修改颜色详细配置:

或者对工具提示的 Tooltip 内容进行定制:

筛选器

Tableau 将所有筛选条件都收敛到筛选器中,我们可以通过拖拽字段的方式对某个字段进行筛选:

如上图所示,比如只看办公用品与科技产品。但其实除了这个通用功能之外,Tableau 还支持更强大的图表交互功能,即点击或圈选图表后,可以对选中的点(字段值)进行保留或排除:

当我们选择排除这几个点时,会自动生成一份对维度字段的筛选条件排除掉选中日期,所以图表是完全数据驱动的: 一般来说

如果属性存在下钻关系会如何呢?无论是行列中对维度的下钻,还是通过标记对维度进行了拆解,筛选都是对 字段层系 生效的:

如上图所示,对下钻后的字段进行筛选,那么筛选条件也会自动构造出临时的字段层系,并对这个临时层系进行筛选。 可以看到,我们不仅能在字段配置区动态组成层系字段,在筛选器中也可以生成临时层系进行筛选,我们需要支持任意层系组合的字段,并作用于筛选器、行列,甚至是标记上。

顺带一提,我们还可以对设置了筛选的字段层系组合拖拽到任意地方使用:

要处理这种场景,我们需要让所有字段都拥有筛选能力,普通字段等于没有筛选条件,我们也可以对一个包含了筛选条件的字段拖拽到任何位置作用。

刚才是对维度进行的筛选,有没有对度量进行筛选的场景呢?有,但我们只能手动将度量字段拖拽到筛选器位置进行手动筛选:

如果我们进行图表内的圈选操作,增加的筛选条件一定是按维度来的:

这么理解这一行为:维度是离散的,勾选操作能表达的含义有限,比如勾选折线图的某些点,如何知道我们要勾选的是维度的那几个月,还是度量的利润范围呢?

**由于最终勾选操作落地在点上,而不是区间上(连续值也不适合进行圈选),所以默认按对维度进行筛选是最准确的理解。**如果上图的操作意图中,你想勾选的不是 6~12 月的区间,而是销量在 13k ~ 45.5k,则需要手动拖拽利润字段,并精确输入筛选范围:

值得注意的是,对连续型度量进行筛选前,还可选择聚合方式:比如对求和的值进行范围筛选,或者对最大值进行范围筛选,功能十分强大。

理解图表

图表是数据可视化的载体,只有数据与配置,没有各式各样的图表,很难产生直观的数据洞察。

可以说, 按照探索式分析的思路,当配置好数据与配置后,可以有多种可视化载体去展示这种配置信息。 比如行、列分别拖拽了日期与销量,那么折线图、表格、散点图、柱状图都可以满足需求,但如果行所在的字段是离散的,那么折线图、散点图就不适合了,这就需要图表推荐功能根据配置推荐合适的图形展示。

Tableau 内置的图表分为 N 大类 - 表格、地图、柱折面饼、散点/象限图 、以及直方图、盒须图、甘特图、靶心图等。可见分析数据,不需要太多种类可视化展现方式,但对于每个图表组件来说,都需要修炼深厚的内功,做好一个表格、折线图并不简单。

行与列

表格、地图、柱折面饼、散点/象限图等都可以用行与列描述基本架构:

  • 表格天然拥有行与列,对调后则代表转置。表格的行与列必须是维度字段,如果拖拽度量字段上去会自动切换为其他图表,再切回来则会把度量字段挪动到 “文本” 标记区域中。
  • 地图行与列就是经纬度,当维度字段放到 “详细信息” 时,根据地理映射表转化为经纬度自动生成经纬度放在行与列。
  • 柱折面饼、散点/象限图都是直角坐标系的图形,以维度字段作为维度轴,以度量字段作为度量轴。

行列的下钻 

在行或列存在多个维度字段时,图表要进行相应下钻。表格对于行下钻如下图所示:

上图也可以理解为展示出 Order Date 与 Order ID 的明细数据,按照 Order Date 分组且列合并。 下钻就是一步步接近明细数据的过程,但目的不是为了看明细表,而是看某些维度下按其他维度拆分的详细信息。

图表下钻和表格思路是一致的:

对于维度轴多维度下钻,将每个维度轴下钻到更细粒度。图表在行与列同时下钻时,与表格的表现稍有不同。仅从轴来看拆解方式是相同的,内部展示了多套轴:

可以认为,当行或列上最后一个字段为度量时,就会切换为图表展示,因为图表适合展示连续状态。 如果排除上图蓝色区域,剩下的区域就是个交叉表,交叉表只是行与列同时存在维度字段的场景,仅有行或列时就变成了普通表格;而图形的下钻和表格下钻机理相同,只是把 “单元格” 的文本换成了柱子或线。

所以对任何图表的下钻,都是对轴的下钻, 相同的是单元格属性永远不会改变,表格的单元格是文本,图形单元格是图形,一个简单折线图可以理解为对整体行与列单元格进行 “连续打通”:

如果继续对行列添加维度进行下钻,其实是对轴进行下钻。排除度量字段不看,就是一个交叉表的下钻过程,如下图所示蓝色框圈住的部分就是一组大的单元格

由于最后一个字段是度量,因此在叶子结点的展开就不是表格模式的单元格,而是连续的线条了。

经过上面的总结,我们要意识到,在探索式分析场景对行列的下钻,表格与图表的逻辑是通用的,实现时也要整体考虑。将轴功能抽离成通用部分来做,表格与图表的区别只是对最后一个字段单元格是离散处理还是连续处理。

层系的下钻 

层系字段下钻与拖多个字段表现一致,但由于存在父子关系,因此在图表上可以展现出 “展开” “收起” 按钮,点击后并不是对图表本身进行操作,而是发送一个事件对 “行” 进行操作,最后通过数据驱动完成展开或收起动作。

不适合行列的图表

饼图就不适合行列,因为饼图是根据离散维度进行拆分,扇叶大小可以由一个度量字段决定,因此对饼图来说,行就对应到 “颜色”、列就对应到新增的 “角度” 这个标记:

没有维度轴的图表

只有行配置的图形推荐用表格,但柱状图、折线图也可以支持这种情况,只要把横轴忽略即可:

从样式上来看没有横轴,其实这种情况是把所有维度的横轴都聚合后的表现。

连续与离散值

我们分别看看连续与离散作用于维度和度量时的区别。

作用于度量

图表要能适配对连续或离散值的处理。比如对销量来说,如果切换为离散值,则当成字符串展示:

如果将销量切换为连续值,则单元格就要使用线条长度代表值的大小,即连续性的值要能够产生 “对比感”:

上图组件是表格,本身适合展示离散值,但可以看到对连续值展示做了适配。对于适合展示连续值的图形,则无法做离散适配:

比如这个柱状图,如果将销量切换为离散,则会自动切换到表格,因为对于双离散值用柱折面饼展示是无意义的。

作用于维度

如上图所示,就是维度使用了离散字段的例子,由于维度是离散的,因此使用柱状图展示,因为柱子间也是隔离的。

对于连续型字段作用于维度,默认适合散点图,因为散点图的行与列都是度量,适合作为默认推荐:

但能用散点图的就也能用线图, **当维度是连续日期字段时,适合用折线图而不是散点图。**因为日期虽然连续,但 本身不适合做比较 ,因此作为一种连续型维度展示比较合适;而散点图两个轴都适合连续型度量,因此不适合方日期这种连续型维度字段。

当然也具备将折线图随时切换为散点图的能力,但这种图形没有什么业务价值:

因此我们对折线图进行标记:行适合连续型维度字段,对散点图进行标记:行列都适合连续型度量字段,就可以根据配置 实现推荐图表的功能

标记

除了饼图支持 “角度”、线图支持 “路径” 这些特殊标记外,所有图表都支持下面五种通用标记:“工具提示”、“大小”、“文本”、“颜色”、“详细信息”。

工具提示 比较简单,所有图表都支持鼠标 Hover 后弹出 Tooltip 即可,并且这个 Tooltip 允许自定义和拓展工具提示字段。

大小 则只有折、柱、散三种图支持,因为这三种图分别有可以描述的大小的线条粗细、柱子宽度、圆圈半径。

文本 对应柱折面饼的 Label、对应表格,矩形树状图,地图的 单元格内容。

颜色、详细信息 则比较特殊,下面详细说明:

拖拽已有字段到详细信息 - 没有任何效果: 

因为本身就在看这个字段的详细信息,因此没有效果。

但如果拖拽已有字段到颜色,则可以根据数值大小或分类进行按颜色区分:

等于开启了图表筛选功能,当颜色筛选条件字段是连续型时,出现筛选滑块,是离散型时,出现图例:

如果拖拽字段不存在于行和列上,对于度量字段,会根据值进行颜色排序(度量拖拽到详细信息依然没有效果):

如上图所示,我们可以从长度看利润,从颜色深度看销量。

如果拖拽字段不存在于行和列上,且是维度字段,则会先进行维度拆分,之后如果选择的是 “颜色” 标记区域,还会对同一组的拆分标记颜色区分。

由于标记区域对维度的拆分是不分行于列的,因此每个图表会根据自身情况进行合适的拆分。

比如条形图如果按某个新维度拆分,则会采取 “堆积柱状图” 的策略:

如果是折线图,则会采取 “多条线” 的策略:

如果是散点图,只要将拆分后多出来的点打散出来即可。由于散点图的维度拆分不像折线图和柱状图可以分段,因此如果不采用按颜色打散,是无法分辨分组的:

之所以说探索式分析的复杂度很高,是因为其可能性公式为:

字段 x 离散连续 x 行列 x 行列下钻 x 标记种类 x 筛选 x 图表

这种组合的笛卡尔积几乎是无穷无尽的。

轴交互

图表一些特定功能是隐藏在轴交互里的。拿折线图来说,一共有 5 个拖拽交互位置,如下图所示:

一般这些区域是用来拖拽度量字段的,所以如果拖拽了维度字段过来,最终会被归类到行列或标记上。

拖拽维度

维度拖拽到底部 1 区域等于替换列字段 :

维度拖拽到图表中 4 区域等于拖到了颜色标记 :

维度拖拽到左侧 3 区域等于对行进行下钻: 

同理拖拽到最上面区域等于对列进行下钻。

拖拽度量

让我们看看拖拽度量时的情况。度量能拖拽的范围更多。比如拖拽到右轴 5 区域,则形成了双轴图:

拖拽到左侧 2 区域则表示在图中额外增加一个轴:

要注意的是,上图的行显示 “度量值”,这是个特殊的字段,并通过筛选器筛选出拖拽的两个字段 Profit 和 Sales。除了拖拽以外,还可以通过将左侧 “度量值” 字段直接拖入行实现:

如上图所示,将度量值放到行,并按度量名称进行颜色标记,就得到了拖拽度量到左侧 2 区域的效果。 这也说明了所有图表交互最终都是通过映射到配置完成,所有能拖拽的操作都可以通过配置配出来 。

对表格来说,能拖拽的区域是行、列、单元格:

拖拽到行或列于拖拽到字段配置区域的行或列没有区别,拖拽到单元格等于拖拽到文本标记区域。通过图表于配置区域结合的方式,即便不完全理解配置的人也可以通过将字段拖拽到图表上得到直观的操作感。

点击、圈选交互

所有图表都支持点击、圈选的方式选中 “点”。对表格来说,点就是单元格:

对柱状图来说,点就是柱子:

对折线图来说,点就是节点:

对饼图来说,点就是扇叶:

所有的点被选中后都有基本高亮功能,最重要的是能对选中的点进行保留、排除、局部排序等等。

比如我们可以对上图饼图选中的几个扇形区域进行从小到大排序:

我们也可以排除某些点,这个在配置章节有提到过,这个操作最终将转化为新增筛选条件:

最后,选中状态在单图表中看似只有高亮效果,但是在多图表联动时,高亮的选中区域会组成一个临时的筛选条件,作用于所有相同数据集的图表,并对这些图表的筛选结果做高亮处理。

3. 总结

理解了探索模型对数据、配置、图表的理解,就能学会探索式思维分析数据,对制作探索式 BI 也有借鉴意义。

讨论地址是:精读《Tableau 探索式模型》 · Issue #199 · dt-fe/weekly

如果你想参与讨论,请 点击这里,每周都有新的主题,周末或周一发布。前端精读 - 帮你筛选靠谱的内容。

关注 前端精读微信公众号

版权声明:自由转载-非商用-非衍生-保持署名(创意共享 3.0 许可证