数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

我以支付业务为例来讲解。
用户来到支付收银台后,在页面上有很多点击行为,比如选择各种支付方式,微信支付、ApplePay 支付等最后完成支付,也有可能点击左上角返回键或者右上角订单中心离开当前页面。
这个过程会产生很多数据,从数据大类上分成:用户数据、行为数据和业务数据。
谁(用户数据)做了什么(行为数据)结果如何(业务数据)?
用户数据指用户本身的特性,如用户画像,使用你产品的用户男性多还是女性多,年龄多大等。
行为数据指用户使用产品在页面上的各种点击行为,在页面上停留时长等。
业务数据指用户行为之后,实际产生的结果,业务数据会落库业务数据表。分析业务数据的意义,可以衡量商业价值,是业务最终呈现结果,用以推动公司业务的发展。
用户数据和行为数据通常可以从第三方数据工具,如友盟、Google Analytics 直接获取,业务数据一般要内部建设。数字化转型网www.szhzxw.cn
今天重点讲业务数据搭建完整过程,以阿里云的Quick BI为例。
在整个数据分析的框架中,分为五大层次,依次是:数据生成、获取数据、数据建模、数据分析和数据应用。
数据分析的框架一: 数据生成
还是以支付业务为例,用户选择支付方式完成支付后,落库核心的两张业务表:订单表和交易表。一个订单会对应多笔交易(每选择一种支付方式生成一笔交易,一笔订单可以使用多个支付方式尝试支付),其实还会产生其他表,比如收货地址表等。
数据分析的框架二:获取数据
获取数据主要通常使用第三方工具如ETL将业务系统的数据经过抽取(Extract)、清洗转换(Transform)之后加载(Load)到数据仓库的过程,数据呈现在BI的数据源。
数据分析的框架三:数据建模
数据建模是指所有数据进到数仓以后,需要根据实际想要看的业务数据进行数据建模,建模后的数据呈现在数据集。数据集作为数据源和可视化展示的中间环节,承接数据源的输入,并为可视化展示输出数据表。
数据分析的框架四:构建数据模型
数据建模是什么含义呢?
底层的业务数据表其实很多,几十张上百张都有,但到了业务数据分析阶段,当需要分析的数据存储在不同的表,可以通过数据关联,把多个表连接起来,形成模型进行数据分析。
比如上述的业务底层订单表到了数据分析阶段衍生的订单表字段发生变化,name 和 city 是从业务地址表取来的数据。
总的来说,数据模型是完全面向数据分析的业务场景形成的新表。以支付业务为例,我构建的数据模型有:用户表、订单表和交易表。
数据分析的框架五:设计维度和度量指标
对数据字段可以进行下一步分类:
- 维度(Dimensions)
- 度量(Measures)
在统计学中,单一数据字段可以被分为离散和连续。离散通常是维度,比如城市名称、用户名字,特征是有限数量的值;连续通常是度量,比如销量、利润或成功率,特征是不可罗列,可能为任一数值。维度和度量中有许多灰色区域,比如金额,可以做维度,也可以做度量。
在上述订单表中,device、city 等是维度,对order_id 计数的总订单数、对status = success 计数的成功订单数是度量。
度量可以再分原子度量和派生度量。
原子度量指从维度里直接获取到,上表中的总订单数和成功订单数。
派生度量并不能直接从数据表中获取,而需要基于已有数据进行加工处理得到,上表中的订单成功率是成功订单数/总订单数得到。数字化转型网www.szhzxw.cn
数据分析的框架六:数据分析
有了维度和度量的概念后,接着引入聚合概念。对于数据分析来说,往往关心的并不是最底层一行一行的的明细数据,更注重分析数据的角度,关心的是数据的总体特征。
聚合,简单讲就是数据源里的多行数据按照一定的标准计算成一个数据,不管数据集里有1行还是多行,视图里的数据都是聚合后的结果,一行数据也是要聚合的,当然一行数据聚合的结果是一样的。实际上,维度为数据聚合提供依据,而度量是依据维度聚合得到的结果。
配置了聚合计算的计算字段,将根据配置的维度自动进行聚合运算。
如:
- 求和:SUM([字段])
- 计数:COUNT([字段])
- 计数去重:COUNT(DISTINCT [字段])
- 求平均值:AVG([字段])
表述的业务含义为时间周围为2021.3.1 ~ 2021.3.15 范围内pc端的订单成功率为0.5。
计算过程:根据created_at=2021.3.1 ~ 2021.3.15 和device =pc ,SUM([总订单数])= 2,SUM([成功订单数])=1,SUM([成功订单数])/SUM([总订单数])=1/2=0.5。
Quick BI 提供电子表格和仪表盘两种可视化工具做以上分析。
电子表格:
仪表盘:
通过可视化的图标去分析数据,找出机会点或者异常。
7. 数据应用
通过可视化的图表去分析数据,找出机会点或者异常。可以说,前面1、2、3、4 所有的工作都在为了第5部分数据应用上。
数据从用户中来,通过一系列的数据沉淀、处理和分析找出机会点做决策再回到用户中去,提升用户体验,带动业务增长,此即数据驱动业务。
8. 结语
本Part介绍了分析数据的数据框架拆解、数据处理加工过程。
但是海量数据怎么看,看哪些?度量指标应该怎么设计,度量指标中什么是业务的北极星指标等此文还没提到,在第三部分数据指标体系设计中讲解。
声明:本文来自Info Tech,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn
数字化转型网数据专题包含哪些内容
数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。
数字化转型网数据专题包含: 数字化转型网(www.szhzxw.cn)
1、数据相关外脑支持:100+数据相关专家、100+数据实践者、1000+相关资料
2、数据研习社:与全球数据相关专家、实践者共同探讨相关问题,推动产业发展!
3、国际认证培训:目前已引进DAMA国际认证CDMP,其他国内外认证也在逐步引进中
4、典型案例参考:与数字化转型网数据要素X研习社社员一起学习典型案例,共探企业数据落地应用

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于Info Tech;编辑/翻译:数字化转型网萍水。

