1.1.2 数据分析的基本流程
1.业务描述性分析流程概述(适用于CDA LEVEL Ⅰ)
业务描述性分析流程主要在CDA LEVEL Ⅰ考试阶段涉及。它分为业务理解、数据获取、数据处理、数据分析及结果展现5个步骤,如图1-2所示。
图1-2 业务描述性分析流程
(1)业务理解:是业务描述性分析的起点,也是流程中最为重要的步骤,要求分析人员能够全面、准确地理解业务问题及业务需求,并结合业务需求制订完整的分析计划。
(2)数据获取:是基于业务分析需求,从多渠道全面地获取分析数据的步骤。在业务描述性分析中用到的数据以结构数据为主,会在后面章节中为大家进行展开说明。数据获取阶段得到的数据没有质量保证,不能直接用来进行分析,需要进行进一步的处理。因此,我们将直接获取到的、未经加工的数据称为“原始数据(Raw Data)”。
(3)数据处理:是将原始数据进行清洗、加工,从而得到高质量的可用来进行分析的有效数据的过程。
(4)数据分析:是对处理过后的有效数据进行业务描述性分析的过程。
(5)结果展现:是将分析结果以业务分析报告或可视化分析报表(仪表盘、商业智能报表等)的形式呈现给业务决策者的过程。在结果展现环节要求内容准确、客观、全面、直观、易懂。
本书后文中的内容将主要围绕业务描述性分析需要使用的相关技能展开,业务描述性分析技能主要分为业务分析方法、数据分析方法及工具应用技能三大类,业务描述性分析技能矩阵如图1-3所示。
图1-3 业务描述性分析技能矩阵
在后面各章节中将针对矩阵中的各个知识点进行详细说明,掌握本书介绍的内容便具备了报考CDA LEVEL Ⅰ考试的能力,也就具备了企业中对业务描述性分析人才的能力要求。
2.数据挖掘流程概述(适用于CDA LEVEL Ⅱ、Ⅲ)
这里向大家介绍CRISP-DM方法论。CRISP-DM方法论将数据挖掘项目的生命周期分为6个阶段,它们分别是业务理解(Business Understanding)、数据理解(Data Understanding)、数据准备(Data Preparation)、建模(Modeling)、模型评估(Evaluation)和模型发布(Deployment),如图1-4所示。
图1-4 CRISP-DM方法论
1)业务理解(Business Understanding)
该初始阶段需要数据分析师从商业角度理解项目的目标和要求,通过理论分析转化为数据挖掘可操作的问题,并据此制订实现目标的初步计划。
2)数据理解(Data Understanding)
数据理解阶段开始于原始数据的收集,然后是熟悉数据、标明数据质量问题、初步探索数据、发掘有趣的子集,以形成可供挖掘的数据关系的假设。
3)数据准备(Data Preparation)
在此阶段,从原始的、未加工的数据集中构造出数据挖掘所需的数据,获取所需的信息。通常需要对数据进行转换和清洗。例如,对数据的缺失值进行填补、对重复样本进行删除。数据准备工作可能被实施多次,而且没有任何规定的顺序。
4)建模(Modeling)
在此阶段,主要是选择和应用各种适合的建模技术,同时对它们的参数进行调整,以达到最优值。通常对同一个数据挖掘的问题类型,可以适用多种建模技术。一些技术对数据格式有特殊的要求,因此常常需要返回数据准备阶段重新处理数据。
5)模型评估(Evaluation)
在此阶段,需要根据项目目标来评估模型效果。例如,评估模型对客户的分类是否足够准确、是否有助于提升销量。另外,此阶段还需要判断是否存在一些重要的项目问题仍未得到充分考虑。若发现问题,则需要返回上述某个步骤去修正模型。
6)模型发布(Deployment)
模型完成后,由模型使用者根据当时背景和目标完成情况,决定如何在现场使用模型。例如,将模型内嵌在网页中以实现个性化新闻推送。