跳至正文

业务6:从问题到图形分析-某消费金融的数据分析-上

标签:

本期介绍一个消费金融场景的业务场景。

我们每个人都可能与银行建立信贷关系,借款人借款,贷款人放贷。传统的借贷关系是以银行为媒介的,它们是最主要的金融特许机构;随着互联网经济兴起,互联网企业把传统的借贷关系发展到普通人的消费场景,典型如阿里的花呗、京东的白条,因此催生了消费金融的快速发展。

这里的数据来自于国内最早的一家消费金融公司,通过P2P的方式一边吸收存款,一边发放贷款,公司在中间作为媒介但不提供担保。借款人不需要提供抵押物,因此是典型的“信用贷款”——以自己的信用作为保证承诺未来尽到应有的还款义务。由于没有抵押物,所以数据模型就相对简单很多。

一、业务场景

1、意向客户登录

这里先假设一个“单账户”模型,假定喜乐君前往APP办理注册,而后提供身份证认证,填写必要的职业、岗位等信息,那么就会在公司的数据库中,就会出现一行数据。

实际上,当我们打开APP的那一刻并赋予权限开始,个人数据就开始被采集。如图所示:

在获得身份证信息之前,设备编码或者手机号至关重要;获得身份证则是关键的业务环节。每一步,都会在数据库中留下对应的数据痕迹。如图:

编码姓名注册时间身份证认证职业…… 
S001喜乐君2021-10-1 07:56:44已经认证
…… 

我们可以把这个过程,称之为“业务到数据表的映射”。

我们可以想象一个超级宽的表格,每个申请人出现一行,记录他/她相关的所有信息,详细到性别、出生日期、行业、职业、注册省份、注册城市、身份证号、手机号、婚姻状态、贷款用途等所有的属性字段。这就是业务中常见的“大宽表”。

这个过程,通常都是IT的专业领域,专业的工程师会在设计业务逻辑式,设计非常多的数据表,从而保持性能和稳定性的平衡。业务需要的“大宽表”,是从众多的数据表合并而成的过程,喜乐君把这个过程,称之为“业务到数据表A的映射过程”。

在正式的借款之前,会有两个关键的业务表:意向客户的基本信息表(记录关于用户的各类属性信息)、意向客户的行为记录表(详细记录在不同页面的节点时间、停留,以及转化)。——

后期,喜乐君会专门找一个“销售过程转化”的数据,用来说明数据表的结构和分析逻辑,这是个特别的业务场景。

2、交易

通过漫长的旅程,客户终于点击了“借款”,输入借款金额,发起了自己的第一笔借据。这个时候,转化成功;进入下一个至关重要的业务场景:贷后管理。

关键的业务字段是:

谁who、在何时when、于何地where、办理何种贷款业务what,业务的度量描述有哪些/how much

只是,为了分析的需要,通常会把这里的数据与其他数据表合并,生成一个较为完整,但又并非复杂的业务数据表——数据合并的过程。

如图所示,展示了某公司大约30万笔交易的借款情况。

可以认为这个数据是至少两个数据的join连接合并,客户近期借款明细表、客户历史借款还款汇总表。

在数据准备的过程中,最为复杂的就是在明细中增加带有聚合意义的数据字段,需要充分理解join和agg聚合的逻辑关系;Tableau中伟大的Fixed LOD就是为了实现这个过程。

二、基于借款数据的初级分析

2.1 最高聚合的结果展现

数据分析自自上而下的发现,因此喜乐君都是从最高聚合开始分析之旅。

比如,这里直接双击创建一个“借款金额总和、借据数量”的分析。交叉表则是展现这种分析的最佳方式。如图左侧。

只是,如果只有“总和、计数”这样的规模聚合类指标,分析就像缺少了一只腿的木偶。按照“第三字段分类”的说明,问题的关键是包含了很多仅在问题上有意义的聚合,比如“利润率”“折扣率”等字段。这里的“件均”也是同理。

通过增加聚合的计算SUM([借款金额])/COUNTD([Listing Id]),我们可以在规模之外,一窥企业的件均质量。

2.2 分析是聚合的层层展开

分析就是聚合,聚合就是分析。分析过程,是自上而下层层展开的过程,这个过程通过维度和聚合的组合来实现——维度是聚合的依据。

比如这里的借款金额156.1M,可以从时间、客户年龄、客户评级等多个角度展开。

由于年度是不完整的,而且只有三年时间,因此这里用年月展开。不同时间的借款金额,由于「时间」和「金额」都是具有连续性的字段,因此这里默认生成折线图。如图左侧所示。

借款金额可以按照年月展开,一个聚合值展开为更多的聚合值;那 借款件数有无此等必要呢? 右侧同时展示两个规模指标,增长趋势几乎一致,这是二者本身是有正相关性的。规模的持续增长,必然是建立在客户的持续增加基础上的。

此时,把分析的视角从“两个规模指标”转化为“两个规模指标的关系”就至关重要了。关系可以是相关性(比如用双轴图),但是要精确的衡量二者的关系,最佳选择是比率计算,即SUM([借款金额])/COUNTD([Listing Id])件均。 

不过,从交叉表到图形,还需要综合考虑二者的表现形式,这是交叉表中无需考虑的。

如果一个描述规模的绝对值和一个描述关系的比值放在一起,都用折线是有迷惑性的。最佳策略是 用面积代表规模,而用点代表比率,考虑到时间的连续性,点连成线。如图所示。

2.3 基于次序字段的“分布”

同样的道理,我们可以把借款金额在客户的维度上展开——性别、年龄、教育程度、注册地、认证信息等。

这里使用年龄作为分析视角——年龄是一个特殊的字段,它兼具维度和度量的特征,又兼具连续和离散的属性,所以包含年龄的不同分析中,展现方式截然不同。

比如,“不同年龄的借款金额”,以“的”为分界,左侧是问题描述、维度,右侧是问题答案、度量。因此,这里的年龄作为分类使用。同时,年龄又是一个连续性字段,它可以往前后延伸,有默认的次序;只是这里的连续又和上面的“时间”不同,所以“件均”要用点表示,而无需连线。如图所示。

看似是柱状图,但是不能排序,实则是直方图分布——直方图是度量在另一个度量上的分布。

很明细,客户集中做中间偏左低年龄段,具体为25到30岁之间。那么这些人占据了多少比例呢?

这又变成了一个新问题——占比。只是占比的分类需要手动去处理,而非实现预设。

有多个功能可以实现,比如选择关心的25-30岁创建“分组”,甚至可以分为多个组,这样可以构建饼图。

分组的缺陷非常明显,它事后难以更改,甚至无法更改;正因为此,喜乐君在书中把它称之为“数据准备”的功能,而非“数据分析”。

如果想要实现动态的分组,就需要一个可以传递数据的中间媒介,即参数和集。这里要容纳多个值,非集莫属。 因此,创建一个25~30岁的年龄集,然后构建饼图。之后在仪表板中,通过“交互动作”就可以实现“选择年龄段——重建集成员——饼图自动调整”的效果了。

究其本质,年龄太多,这个过程相当于在“年龄的借款”之上,增加了一个“更高层次的聚合分析”。

可见,分析就是一个自上而下的过程,同时也要注意借助于分析工具,保持自上而下的连贯性分析。

三、业务场景的完整化——仪表板

工作表对应特定的问题,仪表板对应特定的业务场景。

喜乐君把上述的几个简图通过仪表板组合在一起,就是如下的样子了。之前是一叶障目,如今便是泰山脚下。增加必要的筛选器和交互动作,就可以随时查看特定年度的数据分析,并进一步查看特定年龄段的占比了。

在这个过程中,喜乐君充分地说明了问题到图形的选择过程,图形中字段属性对图形类型的影响,以及如何借助于集增加更高聚合分类。

这就是“工具”与“方法”的结合。

喜乐君

Oct 1, 2021


了解 喜乐君 的更多信息

订阅后即可通过电子邮件收到最新文章。

了解 喜乐君 的更多信息

立即订阅以继续阅读并访问完整档案。

Continue reading