业务6:从问题到图形分析-某消费金融的数据分析-上-喜乐君-敏捷BI布道师

本期介绍一个消费金融场景的业务场景。

我们每个人都可能与银行建立信贷关系，借款人借款，贷款人放贷。传统的借贷关系是以银行为媒介的，它们是最主要的金融特许机构；随着互联网经济兴起，互联网企业把传统的借贷关系发展到普通人的消费场景，典型如阿里的花呗、京东的白条，因此催生了消费金融的快速发展。

这里的数据来自于国内最早的一家消费金融公司，通过P2P的方式一边吸收存款，一边发放贷款，公司在中间作为媒介但不提供担保。借款人不需要提供抵押物，因此是典型的“信用贷款”——以自己的信用作为保证承诺未来尽到应有的还款义务。由于没有抵押物，所以数据模型就相对简单很多。

一、业务场景

1、意向客户登录

这里先假设一个“单账户”模型，假定喜乐君前往APP办理注册，而后提供身份证认证，填写必要的职业、岗位等信息，那么就会在公司的数据库中，就会出现一行数据。

实际上，当我们打开APP的那一刻并赋予权限开始，个人数据就开始被采集。如图所示：

在获得身份证信息之前，设备编码或者手机号至关重要；获得身份证则是关键的业务环节。每一步，都会在数据库中留下对应的数据痕迹。如图：

编码	姓名	注册时间	身份证认证	职业	……
S001	喜乐君	2021-10-1 07:56:44	已经认证		……

我们可以把这个过程，称之为“业务到数据表的映射”。

我们可以想象一个超级宽的表格，每个申请人出现一行，记录他/她相关的所有信息，详细到性别、出生日期、行业、职业、注册省份、注册城市、身份证号、手机号、婚姻状态、贷款用途等所有的属性字段。这就是业务中常见的“大宽表”。

这个过程，通常都是IT的专业领域，专业的工程师会在设计业务逻辑式，设计非常多的数据表，从而保持性能和稳定性的平衡。业务需要的“大宽表”，是从众多的数据表合并而成的过程，喜乐君把这个过程，称之为“业务到数据表A的映射过程”。

在正式的借款之前，会有两个关键的业务表：意向客户的基本信息表（记录关于用户的各类属性信息）、意向客户的行为记录表（详细记录在不同页面的节点时间、停留，以及转化）。——

后期，喜乐君会专门找一个“销售过程转化”的数据，用来说明数据表的结构和分析逻辑，这是个特别的业务场景。

2、交易

通过漫长的旅程，客户终于点击了“借款”，输入借款金额，发起了自己的第一笔借据。这个时候，转化成功；进入下一个至关重要的业务场景：贷后管理。

关键的业务字段是：

谁who、在何时when、于何地where、办理何种贷款业务what，业务的度量描述有哪些/how much

只是，为了分析的需要，通常会把这里的数据与其他数据表合并，生成一个较为完整，但又并非复杂的业务数据表——数据合并的过程。

如图所示，展示了某公司大约30万笔交易的借款情况。

可以认为这个数据是至少两个数据的join连接合并，客户近期借款明细表、客户历史借款还款汇总表。

在数据准备的过程中，最为复杂的就是在明细中增加带有聚合意义的数据字段，需要充分理解join和agg聚合的逻辑关系；Tableau中伟大的Fixed LOD就是为了实现这个过程。

二、基于借款数据的初级分析

2.1 最高聚合的结果展现

数据分析自自上而下的发现，因此喜乐君都是从最高聚合开始分析之旅。

比如，这里直接双击创建一个“借款金额总和、借据数量”的分析。交叉表则是展现这种分析的最佳方式。如图左侧。

只是，如果只有“总和、计数”这样的规模聚合类指标，分析就像缺少了一只腿的木偶。按照“第三字段分类”的说明，问题的关键是包含了很多仅在问题上有意义的聚合，比如“利润率”“折扣率”等字段。这里的“件均”也是同理。

通过增加聚合的计算SUM([借款金额])/COUNTD([Listing Id])，我们可以在规模之外，一窥企业的件均质量。

2.2 分析是聚合的层层展开

分析就是聚合，聚合就是分析。分析过程，是自上而下层层展开的过程，这个过程通过维度和聚合的组合来实现——维度是聚合的依据。

比如这里的借款金额156.1M，可以从时间、客户年龄、客户评级等多个角度展开。

由于年度是不完整的，而且只有三年时间，因此这里用年月展开。不同时间的借款金额，由于「时间」和「金额」都是具有连续性的字段，因此这里默认生成折线图。如图左侧所示。

借款金额可以按照年月展开，一个聚合值展开为更多的聚合值；那借款件数有无此等必要呢？右侧同时展示两个规模指标，增长趋势几乎一致，这是二者本身是有正相关性的。规模的持续增长，必然是建立在客户的持续增加基础上的。

此时，把分析的视角从“两个规模指标”转化为“两个规模指标的关系”就至关重要了。关系可以是相关性（比如用双轴图），但是要精确的衡量二者的关系，最佳选择是比率计算，即SUM([借款金额])/COUNTD([Listing Id])件均。

不过，从交叉表到图形，还需要综合考虑二者的表现形式，这是交叉表中无需考虑的。

如果一个描述规模的绝对值和一个描述关系的比值放在一起，都用折线是有迷惑性的。最佳策略是用面积代表规模，而用点代表比率，考虑到时间的连续性，点连成线。如图所示。

2.3 基于次序字段的“分布”

同样的道理，我们可以把借款金额在客户的维度上展开——性别、年龄、教育程度、注册地、认证信息等。

这里使用年龄作为分析视角——年龄是一个特殊的字段，它兼具维度和度量的特征，又兼具连续和离散的属性，所以包含年龄的不同分析中，展现方式截然不同。

比如，“不同年龄的借款金额”，以“的”为分界，左侧是问题描述、维度，右侧是问题答案、度量。因此，这里的年龄作为分类使用。同时，年龄又是一个连续性字段，它可以往前后延伸，有默认的次序；只是这里的连续又和上面的“时间”不同，所以“件均”要用点表示，而无需连线。如图所示。

看似是柱状图，但是不能排序，实则是直方图分布——直方图是度量在另一个度量上的分布。

很明细，客户集中做中间偏左低年龄段，具体为25到30岁之间。那么这些人占据了多少比例呢？

这又变成了一个新问题——占比。只是占比的分类需要手动去处理，而非实现预设。

有多个功能可以实现，比如选择关心的25-30岁创建“分组”，甚至可以分为多个组，这样可以构建饼图。

分组的缺陷非常明显，它事后难以更改，甚至无法更改；正因为此，喜乐君在书中把它称之为“数据准备”的功能，而非“数据分析”。

如果想要实现动态的分组，就需要一个可以传递数据的中间媒介，即参数和集。这里要容纳多个值，非集莫属。因此，创建一个25～30岁的年龄集，然后构建饼图。之后在仪表板中，通过“交互动作”就可以实现“选择年龄段——重建集成员——饼图自动调整”的效果了。

究其本质，年龄太多，这个过程相当于在“年龄的借款”之上，增加了一个“更高层次的聚合分析”。

可见，分析就是一个自上而下的过程，同时也要注意借助于分析工具，保持自上而下的连贯性分析。

三、业务场景的完整化——仪表板

工作表对应特定的问题，仪表板对应特定的业务场景。

喜乐君把上述的几个简图通过仪表板组合在一起，就是如下的样子了。之前是一叶障目，如今便是泰山脚下。增加必要的筛选器和交互动作，就可以随时查看特定年度的数据分析，并进一步查看特定年龄段的占比了。

在这个过程中，喜乐君充分地说明了问题到图形的选择过程，图形中字段属性对图形类型的影响，以及如何借助于集增加更高聚合分类。

这就是“工具”与“方法”的结合。

喜乐君

Oct 1, 2021

了解喜乐君的更多信息

订阅后即可通过电子邮件收到最新文章。

业务6:从问题到图形分析-某消费金融的数据分析-上

一、业务场景

1、意向客户登录

2、交易

二、基于借款数据的初级分析

2.1 最高聚合的结果展现

2.2 分析是聚合的层层展开

2.3 基于次序字段的“分布”

三、业务场景的完整化——仪表板

分享到：

了解 喜乐君 的更多信息

了解 喜乐君 的更多信息

了解喜乐君的更多信息

了解喜乐君的更多信息