量化投资:MATLAB数据挖掘技术与实践(第2版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

4.4 本章小结

数据的准备是数据挖掘的基础,本章对数据准备过程中的三个环节——数据的收集、数据质量分析和数据预处理进行了介绍。本章内容的技术性不是很强,更多的是知识和经验的介绍。

在数据收集阶段,需要强调的有两点,一是数据挖掘的数据源具有广义的特征,原则上与数据挖掘目标相关的数据都可以作为这个项目的原始数据,所以在数据收集阶段尽量发散思维,尽量寻找与业务关联的数据,这样至少能保证数据的全面性;二是收集数据的过程也伴随数据的抽样,如果对数据的质量不够了解,最简单直接的方法就是先把这些数据全部拿过来,再随着项目的深入逐渐通过抽样来归约。

数据质量分析的主要目的是评估数据的质量,为进一步的数据预处理做准备。数据质量分析的常用方法有值分析、统计分析和频次图与直方图分析三种方法。这三种方法的应用没有先后顺序之分,选用哪种方法是根据数据的特征而定的。在实践中,通常综合使用这三种方法对数据进行分析,这样,三种方法的优势都可以发挥出来。另外,数据质量分析也是强化对数据理解的一个过程,通过对数据进行质量分析,可以加深对数据的认识和理解,这对数据挖掘项目的实施是非常重要的。

数据预处理是数据准备的重点和主要的工作,实践中没有任何一个数据挖掘的项目是完美的,总是有这样或那样的问题,所以总是需要做数据预处理工作。尽管已经开发了许多数据预处理的方法,由于不一致或脏数据的数量巨大,以及问题本身的复杂性,数据预处理仍然是一个活跃的研究领域。在实践中,数据预处理的过程非常灵活,项目之间数据预处理过程的经验可以借鉴,但不同项目的数据预处理过程不会完全相同,所以说数据预处理本身也是一个科学与艺术相结合的过程。