量化投资:MATLAB数据挖掘技术与实践(第2版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第7章 数据回归方法

当人们对研究对象的内在特性和各因素间的关系有比较充分的认识时,一般用机理分析方法建立数学模型。如果由于客观事物内部规律的复杂性及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型,那么通常的方法是搜集大量数据,基于对数据的统计分析去建立模型。数据挖掘正是处理数据的技术,本章将讨论数据挖掘中用途非常广泛的一类方法—回归方法。

事物之间的关系可以抽象为变量之间的关系。变量之间的关系可以分为两类:一类称为确定性关系,也称为函数关系,其特征是一个变量随着其他变量的确定而确定;另一类关系称为相关关系,即变量之间的关系很难用一种精确的方法表示出来。例如,通常人的年龄越大,血压越高,但人的年龄和血压之间没有确定的数量关系,人的年龄和血压之间的关系就是相关关系。回归方法就是处理变量之间的相关关系的一种数学方法。其解决问题的大致方法、步骤如下:

(1)收集一组包含因变量和自变量的数据。

(2)选定因变量和自变量之间的模型,即一个数学式子,利用数据按照一定准则(如最小二乘法)计算模型中的系数。

(3)利用统计分析方法对不同的模型进行比较,找出效果最好的模型。

(4)判断得到的模型是否适合于这组数据。

(5)利用模型对因变量做出预测或解释。

回归在数据挖掘中是最为基础的方法,也是应用领域和应用场景最多的方法。只要是量化型问题,一般先尝试用回归方法来研究或分析。在量化投资领域,也经常要用到回归方法,比如用回归方法研究经济走势、大盘走势及个股走势建模等。量化投资机构常用的多因子模型就可以用多元回归方法得到。

根据回归方法中因变量的个数和回归函数的类型(线性或非线性)可将回归方法分为一元线性回归、一元非线性回归、多元线性回归和多元非线性回归。另外,还有两种特殊的回归方法,一种是在回归过程中可以调整变量数的回归方法,称为逐步回归;另一种是以指数结构函数作为回归模型的回归方法,称为逻辑斯蒂(Logistic)回归。本章将逐一介绍这几种回归方法。