跳至正文

Tableau Prep功能更新排名

标签:

自从2018年Prep发布以来,喜乐君几乎是形影不离,并极力在业务用户中推荐。2021.3版本的Tableau已经来啦。最令喜乐君关注的Prep增加数据行(new rows)和流程关联计划功能,有一种久违新功能的感觉。自此开始,Prep增加了一个全新的节点功能“New rows”,目前只能基于连续的日期、整数两种字段类型增加行。

上图:2021.3增加行

而关联任务则有助于提高多流程的效率,避免无效跑数据。这个功能对应服务器,是企业用户的必备。

回顾多年,近期tableau的更新重点似乎转到了AI和数据准备方面,喜乐君梳理一下Tableau Prep近几年的功能更新,并结合自己多年应用重点介绍关键的功能。首先,介绍一下近期版本最重要的功能更新,它们是标志性的存在。

  • 2021.2 爱因斯坦+,批量重命名
  • 2021.1 输出写入excel,以及”鸡肋”的“爱因斯坦”。。
  • 2020.4 Prep Conductor支持在线编辑流程⭐️⭐️
  • 2020.3 支持数据写入数据库⭐️⭐️
  • 2020.2 支持增量刷新数据⭐️⭐️
  • 2020.1 增加LOD计算、Rank计算⭐️⭐️
  • 2019.3 自定义数据角色,提高数据准确性⭐️
  • 2019.2 增加自定义SQL数据连接
  • 2019.1 新增Prep Conductor,支持流程自动运行;增加列转行
  • …… 

接下来,喜乐君结合自己的使用,先重点介绍近两年最重要的版本功能,再介绍特别喜欢的一些效率功能。一

TOP1 -流程输出写入外部数据库(2020.3)

写入数据库,算是期待已久的功能;有这个这个功能,Prep Builder的数据结果可与Tableau之外的工具轻松衔接,才算是真正地敏捷ETL,而非仅仅是数据整理。Tableau Prep Builder 支持将流程数据保存到以下数据库:

  • Amazon Redshift、Microsoft SQL Server
  • MySQL、Oracle、PostgreSQL
  • Snowflake、Teradata

只需要在输出步骤中的“将输出保存到”下拉菜单中,选择“数据库表”。然后,选择要在其中保存流程输出的数据库和表。您还可以输入表名以在数据库中创建新表。字段比较预览显示流程中的字段和表中的字段之间的匹配状态。状态字段显示有关不匹配字段的详细信息。

图:Prep输出结果

对于高级用户而言,还可以添加可以在将数据加载到数据库表之前或之后运行的 SQL 脚本。可以使用这些脚本在运行流程之前创建表数据的副本、添加索引、向数据库表添加数据库约束等。而在2021.1.2中,支持写入excel,当然,这个不能算是大更新,但也算是进步了。对于喜欢“中国化”的用户而言,这个是大消息。

TOP2- 增量刷新及相关更新(2020.2+)

【官方】如果流程数据不断变化,现在可以通过使用增量刷新来仅检索和处理自流程上次运行以来的最新数据行,从而节省时间和资源。只需为流程配置增量刷新参数,指示 Tableau Prep Builder 如何从输入数据中检测和检索新行。您还可以配置当流程在“输出”步骤中运行时更新输出表的方式。图片通过“输出”步骤中的新选项,您可以选择将新数据追加到现有表或使用 Tableau Prep Builder 的现有功能,并将表数据替换为新数据。此选项可用于增量刷新和完全刷新类型。

注意:需要 Tableau Server 版本 2020.2 及更高版本(启用了 Tableau Prep Conductor)才能使用增量刷新来计划流程。

【喜乐君】在实际业务中,通常是增量刷新和全量刷新结合,保证数据的准确性,如图所示,可以在Server为流程同时设置两个刷新方式,比如工作日增量刷新+周末全量刷新。

还有一个与增量刷新关键功能,出现在2020.3.3版本中,即增量刷新设置可以保存并重复使用。

应该在2019年就有了保存部分片段的功能。

【官方】如今,在为增量刷新配置输入和输出步骤时,可以保留配置并重复使用它。用户可以复制和粘贴这些步骤,或保存它们供以后重用。然后,当您将它们应用于新流程时,将保留增量刷新配置信息,从而不必从头开始再次设置配置。

TOP3- LOD函数和rank函数等(2020.1)

近期,喜乐君尝试用prep builder在某客户那里讲解了一遍Fixed LOD的用途,发现比之前更加清晰。早在一年多前的2020.1版本,prep就支持fixed LOD功能和rank函数。那个时候,fixed LOD被翻译为“固定LOD”,喜乐君一番努力这次让它恢复了原样。而早在2020年3月的客户服务中,喜乐君就把这个功能使用淋漓尽致了。

时至今日,这个功能依然被低估,很多人还在使用Join+aggregate的方式完成fixed 的简单功能。如图所示,可以通过agg聚合完成指定层次的聚合,而后以join连接增加到原数据明细中。

基于fixed,只需要点击选择就可以轻松完成。借助于这个过程,可以更好地理解fixed lod的本质

fixed LOD  = 
fixed another LOD to aggregate 
and then join to dataset

Rank函数使用相对没有fixed LOD高频,但是在prep中完成这个过程,前端的过程就轻松多了。

关联推荐:Prep2020拥抱LOD:Fixed LOD

TOP5- 在线创建和编辑Prep 流程(2020.4.1)

从版本 2020.4.1 开始,用户可以使用 Tableau Prep Builder、Tableau Server 或 Tableau Online 创建流程来清理和准备数据。可以连接到数据、构建新流程或编辑现有流程,您的工作每隔几秒钟会自动保存一次。创建只有您可用的草稿流程,或发布流程以使其可供其他人使用。从 Web 中直接运行单个流程,或者使用 Tableau Prep Conductor 按计划自动运行流程。

在 Web 上构建和编辑流程时,Tableau Prep Builder 中的大多数功能可用,但某些功能和连接器可能不可用。不过,在大型企业中,这个功能可能是受限的,因为通常分析师没有权限连接数据库,即便如此,能使用server上托管的hyper数据,依然能大幅提高效率。

TOP6-自定义数据角色,准确性必备

这里,喜乐君要说一下很老、但被忽视的功能——数据角色。

早在 Tableau Prep Builder 版本 2018.2.3 中,就引入了数据角色来帮助用户对字段值进行标准化,并快速查找无效的值。不过当时仅限于电子邮件、地理位置、URL少数样式。

如图所示,可以为“国家/地区”设置地理角色,从而快速发现异常值,比如这里的“中国台湾地区”。

如果希望自定义数据角色,比如把上述的“中国台湾地区”预设为通用角色,或者把“门店名称”预设为通用角色,让所有人检查与通用角色的差异性。此时就可以“发布数据角色”。这个功能在2019.3.1推出,并在之后兼容了数据分组。

时至今日,这个功能依然是最容易被忽视的、入门也最容易的数据整理功能。喜乐君强烈推荐于此。

TOP7-Prep连接能力持续增强

从2018年仅能连接本地数据和有限数据源,到2019.3支持连接tableau server数据源,再到相继支持Google BigQuery 、云数据、Databricks、Impala、salesforce等越来越广泛的数据源,Tableau prep的连接生态一路飞奔。对于专业用户而言,有几个改进至关重要:

  • 2021.1.3开始,prep支持包含用户筛选器的数据源,这个喜乐君在客户实施过程中遇到过,恰逢这个功能。
  • 2020.4,支持连接到空间文件和空间数据库!对于离线环境是福音。

二  效率功能更新

上述随着版本的各项新增功能,是Tableau prep builder持续进步的明证。同时,还有一些功能性的改进,让操作越来越简化、效率逐步提高,也是喜乐君对prep爱不释手的重要原因。
喜乐君按照喜爱程度排列如下:

1、隐藏字段2021.1.4

通常分析师都有一个删除非关键字段的过程,但是又免不了一次又一次。对于2021.1.4增加的“隐藏字段”功能,喜乐君的热爱已经无以言表。

【官方】隐藏不需要清除的字段,同时仍将其包含在流程输出中。您可以随时隐藏字段,在运行流程以创建流程输出之前,Tableau Prep 不会为这些字段生成数据。所有隐藏的字段均标有隐藏字段图标。在“隐藏字段”配置卡中查看隐藏字段的列表。当您在流程中隐藏字段时,会自动生成此卡。

2、批量重命名字段 2021.2.1

在多数据源处理过程中,经常出现多个数据源的字段匹配后凌乱的情况,比如客户数据有出生日期、性别、地点,员工信息表也有相同的字段,此后就要依次增加前缀区分。在2021.2.1版本中,“重命名字段”支持一次性快速查找和替换、移除多个值以及向多个值添加前缀或后缀。简直是重复性劳动的解放者。

【官方 】在以前的版本中,您必须一次手动更改每个字段名称。现在,能够选择要更改的字段,并批量应用字段名称更改。只需单击一下,即可替换或移除文本,或者为与您的搜索条件匹配的所有字段添加前缀或后缀。您还可以自动将此相同的更改应用于刷新数据时添加的新字段。只需在进行更改时选中“自动重命名新字段”复选框即可。

3、增加日期函数转化(2020.1.4)

这个功能如今已经更加完整,可以视为是日期函数的自动化,并非重要,但是对于小白而言简化了操作。对于中高级用户而言,它背后都是日期函数,特别是datepart函数。如图所示。

在2020.3.3中,增加了 自定义会计年度。

在2021.1.4中,增加了星期和月份。可以一键将日期字段值转换为星期几或月份名称(字符串性质的month函数,是datename函数)。

函数,是所有中高级计算的基础,推荐大家好好阅读官方文档,或者《数据可视化分析:tableau原理与实践》一书第二部分计算。

4、新手功能大放送!2020.3

很多新手不知道如何下手,2020.3的“新手提示”,简直太完美啦。

【官方】现在,当您连接到数据源并将其拖动到工作区时 ,Tableau Prep Builder 可以通过在“输入”步骤旁边显示一个虚构的“清理”步骤。只需单击建议的“清理”步骤,只要单击一次便可添加该步骤,帮助您查看数据的详细信息,以便您立即开始检查和清理数据。
另一个让喜乐君惊艳的是“流程折叠”,对于Prep重度用户,这简直就是福音。

5、高亮输入源

官方翻译很晦涩:将流程输入映射回其原始连接。其实就是高亮输入,方便更好的查找。这个苦恼我在早期分析时见过。

【官方】如果使用多个输入来构建流程,则在需要更新或交换连接时,尝试查找用于不同输入的单个表或数据源并不总是显而易见。为了更轻松地查找流程输入和表,我们添加了一个新功能,在“连接”窗格中突出显示所选输入的连接器和表。只需在“流程”窗格中选择一个或多个输入步骤,相关连接器和表即会在“连接”窗格中突出显示。

Aug 1, 2021 @喜乐君Prep 系列回顾:我的最爱

by 喜乐君

创建 Aug 1, 2021
修改 Sep 21, 2021


了解 喜乐君 的更多信息

订阅后即可通过电子邮件收到最新文章。

了解 喜乐君 的更多信息

立即订阅以继续阅读并访问完整档案。

Continue reading