- 财务大数据分析与可视化:基于Power BI案例应用(第2版·微课版)
- 顾瑞鹏 汪刚主编
- 2002字
- 2025-03-13 16:57:16
子任务四 商业智能的核心技术

微课1-1-4
商业智能以大数据为基础,对这些数据进行ETL处理后,将其按一定方式存储在数据仓库中,再经过联机分析处理,从中挖掘出数据的价值。商业智能的核心技术包括以下3种。
1. ETL技术
ETL是将业务系统的数据经过抽取(Extract)、转换(Transform)之后加载(Load)到数据仓库的过程,目的是将企业中分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。ETL是商业智能中的一个重要环节。ETL的过程如图1-2所示。

图1-2 ETL的过程
(1)数据抽取。数据仓库中的数据是面向主题的,分析人员在将源数据导入数据仓库之前,需要识别出与分析决策相关的数据。抽取过程通常考虑以下几个方面:①确定源数据及其含义;②进行数据抽取,确定访问哪些数据库、文件和表;③确定抽取频率;④确定抽取数据保存的位置;⑤无法抽取时的异常处理。
(2)数据转换。数据转换就是将抽取的数据变成数据分析所需要的、完整的、准确的目标数据,主要包括数据清洗、格式转换、汇总计算等。数据清洗将从数据的准确性、完整性、一致性、唯一性、有效性几个方面来处理数据的缺失值、错误值、重复值、不一致等问题。
① 缺失值的处理方法。这里的缺失值是指数据不完整。大多数情况下,缺失值必须手工补充填入(即手工清理)并与数据提供方进行确认。当无法得到数据提供方确认时,某些缺失值可以从本数据源或其他数据源推导出来,这就可以用平均值、最大值、最小值或更为复杂的概率估计代替缺失的值。如果缺失值很少且不影响数据分析,也可将缺失值记录直接删除。
② 错误值的处理方法。错误值的产生大多是由于业务系统不够健全,在接收并输入数据后,没有进行判断直接写入后台数据库造成的,如字符串包含若干空格、日期格式不正确、日期越界等。产生错误值时,可以人工修改或用统计分析的方法识别可能的错误值或异常值,从而将其加以修正。
③ 重复值的处理方法。数据库中属性值相同的记录被认为是重复记录。重复的记录只保留一条即可,其余的记录可删除。
④ 不一致性数据的处理方法。从多个数据源集成的数据可能存在语义冲突,如性别字段中的“男性”,有的表中表示为“1”,有的表中表示为“男”。当数据出现不一致时,可定义完整性约束条件来检测不一致性,也可通过分析数据发现联系,从而使数据保持一致。
(3)数据加载。数据加载是将清洗和转换后的、符合数据分析要求的数据加载到数据仓库中。加载方式包括直接追加和全面覆盖两种。
2. 数据仓库技术
数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。数据仓库模型主要包括概念模型、逻辑模型和物理模型。概念模型通过主题来表达,用维和度量表示。逻辑模型也叫关系模型,用于确定关系模式的定义,如数据分割策略。物理模型是逻辑模型在数据仓库中的实现,如数据索引策略、数据的存储策略及存储优化分配等。下面重点介绍逻辑模型。
逻辑模型一般有两种,即星形模型和雪花模型。
(1)星形模型。星形模型由事实表和维度表组成,事实表可连接多种维度表,维度表只有一层。维度表和事实表必须有能够关联的字段。某公司采购业务数据的星形模型如图1-3所示。其中,采购订单表是事实表,包含企业实际发生的全部采购订单数据,通常记录数很多;而日期表、商品表、物流表、供应商表等都是维度表,其中的数据作为分析的维度,数据量较少。

图1-3 某公司采购业务数据的星形模型
(2)雪花模型。雪花模型是星形模型的扩展,在事实表的外部有多层维度表。例如,将供应商表中的城市和省份字段拆分出来放入地区表中,再将地区表作为供应商表的维度表,这样做可以减少数据冗余。
在数据联机分析处理中,大多使用星形模型。
3. 联机分析处理技术
联机分析处理技术是使用最广的数据分析技术,它通过对数据仓库的多维分析,可以快速实现洞察并发现问题。联机分析处理中最主要的操作结构是数据立方体,它是一种支持快速数据分析的多维数据结构(实际的或虚拟的),能够进行多维度、高效率的操作和数据分析,如图1-4所示。分析人员通过改变数据位置和定义,可以在整个数据库中进行导航,并能提取数据的一个特定子集。常见的OLAP操作包括切片(Slice)、切块(Dice)、钻取(Drill-down)、上卷(Roll-up)和旋转(Pivot)等。
(1)切片操作是选择特定的维度值进行分析。例如,只选择东北地区的销售数据,或者只查看2024年度的销售数据,如图1-5所示。

图1-4 数据立方体

图1-5 切片
(2)切块操作是选择维度中特定区间的数据或某批特定值进行分析。例如,选择2023—2024年的销售数据,如图1-6所示。

图1-6 切块
(3)钻取操作是在维度的不同层次间的变化,如从上层维度降到下层维度,或者将汇总数据拆分为更详细的数据。例如,对手机维度向下钻取,得到的数据立方体如图1-7所示。

图1-7 钻取
(4)上卷操作是钻取的逆操作,即从低层维度向高层维度聚合。例如,将华为手机、小米手机和OPPO手机向上汇总。
(5)旋转即维度位置互换,类似二维表的行列转换。例如,将年份维度和地区维度互换,如图1-8所示。

图1-8 旋转