量化投资:MATLAB数据挖掘技术与实践(第2版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1 量化投资与数据挖掘的关系

1.1.1 什么是量化投资

量化投资,简单地说就是利用数学、统计学、信息学等领域的技术,对投资对象进行量化分析和优化,从而进行精确投资的行为。量化投资的关键是对宏观数据、市场行为、企业财务数据、交易数据等进行分析,利用数据挖掘技术、统计技术和优化技术等科学计算方法对数据进行处理,以得到最优的投资组合和投资机会。

目前,量化投资已经在全球范围得到投资者的广泛认可。在美国零售市场发行的主动型股票基金中,量化投资基金占据了16%的市场份额。在机构投资市场,量化投资获得了更多的关注,以巴克莱全球投资管理公司、道富环球投资管理公司和高盛国际资产管理公司为首的一大批以量化投资为核心竞争力的公司已经成为机构资产管理公司中的“巨无霸”。

量化投资以先进的数学模型替代人为的主观判断,可以避免在市场极度狂热或悲观的情况下做出非理性的投资决策。另外,量化投资借助的是计算机系统强大的信息处理能力,因此也具有更大的投资稳定性。

如何将量化投资与其他投资方式进行区分呢?其实区分起来也很容易,按照投资决策的方式,可以将投资方式分成判断型和量化型两类。判断型投资方式的投资者根据各种信息及个人经验来确定买卖什么、买卖多少、什么价位执行交易、如何退场(止损、止盈)等,这里面最有代表性的人物正是西蒙斯在纽约的邻居索罗斯。股神巴菲特也应该算是判断型的投资者。判断型投资者的决策中心枢纽是大脑,各种信息进入大脑,大脑输出的是买卖交易指令。同样的信息进入不同人的大脑,大脑输出的很可能是不同的指令,因为每个人的经历、个性和性格不同,判断的方法也不同。科学发展到今天,人类能够登天入地、克隆猪羊,但对自己大脑的了解还是非常有限的,人的大脑可以说是一个典型的“黑箱”。量化投资的一个显著特征是量化投资并不直接依靠大脑,而是依靠数学公式来投资。公式的好处是它的一致性:同样的信息输入同样的公式,得出的结果是一样的,跟输入的人是谁没有关系。西蒙斯正是量化型投资者的代表,但他不是唯一使用量化型方式投资的人。索罗斯、巴菲特和西蒙斯这三个人或许可以算是投资行业的福、禄、寿三星,他们使用完全不同的两类投资方式,说明到目前为止还不能确定这两类方式中哪一类更好。但有一点是明确的:量化型的投资方式还很年轻,它的发展壮大也不过是最近30年的事情,而且从大奖章基金的表现来看,量化投资的优势非常明显。

据统计,2007年全球70%的钱都是凭借基本面型的投资方式来操作的,30年之前,这个比率应该超过90%。技术型、量化型的投资方式虽说可以溯源到20世纪初,但其发展和壮大是近30年的事情,尤其是使用数学工具和计算机的量化投资。在过去的20年间,全世界很多著名大学的毕业生纷纷选择金融机构的量化分析师这样的工作,他们学的专业常常是统计、数学、天体物理、量子物理、流体力学和计算机。目前,使用量化方式进行投资的各类基金和其他机构所管理的资金数额估计占全球投资总量的20%,在全球很多大型的股票交易所中,可以说接近50%的交易量来自各类量化型的投资方式。在金融危机的影响之下,很多投资行业受到影响,但量化投资(包括指数投资)仍然是基金管理中增长最快的部分。近年来,量化投资在中国渐渐引起重视,光大保德信基金、上投摩根基金、嘉实基金、中海基金、长盛基金、华商基金和富国基金等公司,先后推出了自己的量化基金产品。不少基金公司在国内外广揽量化投资人才,一股“量化基金”的热潮悄然掀起。

1.1.2 量化投资的特点

量化投资(定量投资)和传统的定性投资本质上是相同的,二者都基于市场是非有效或弱有效的理论基础,投资经理可以通过对个股估值、成长等基本面的分析研究,建立战胜市场、产生超额收益的组合。不同的是,定性投资管理较依赖于对上市公司的调研,以及投资经理个人的经验和主观判断,而量化投资管理则是“定性思想的理性应用”,量化投资强调投资的科学性,它意味着“投资已由一种艺术发展为科学”。具体来说,量化投资有如下几个特点。

第一,纪律性,所有决策都是依据模型做出的。纪律性首先表现在依靠模型和相信模型,每天在做决策之前,要先运行模型,根据模型的运行结果进行决策,而不是凭感觉。有人问,模型出错怎么办?不可否认,模型可能出错,就像CT机可能误诊病人一样。但是,在大概率下,CT机是不会出错的,所以医生没有抛弃CT机。量化投资使用的模型在大概率下是不会出错的,所以,从概率角度来讲,相信这些模型比相信人的主观判断会更可靠。纪律性的好处很多,可以克服人性的弱点,如贪婪、恐惧、侥幸心理,也可以克服认知偏差。纪律化的另一个好处是可跟踪。量化投资的每个决策都是有理有据的,特别是有数据支持的。如果有人质问笔者,某年某月某一天,你为什么购买某只股票,那么笔者会打开系统,系统会显示出当时被选择的这只股票与其他股票相比在成长面、估值、动量、技术指标上的得分情况,这个评价非常全面,只有这只股票的汇总得分比其他股票高才有说服力。

第二,系统性。系统性具体表现为“三多”:首先是多层次,量化投资在大类资产配置、行业选择、精选个股三个层次上都有模型;其次是多角度,量化投资的核心投资思想包括宏观周期、市场结构、估值、成长、盈利质量、分析师盈利预测、市场情绪等多个角度;最后是多数据,量化投资能处理海量数据。人脑处理信息的能力是有限的,当一个资本市场只有100只股票时,定性投资基金经理是有优势的,他可以深刻分析这100家公司。但在一个很大的资本市场,当有成千上万只股票的时候,量化投资凭借强大的信息处理能力,能捕捉更多的投资机会。

第三,妥善运用套利的思想。量化投资正是在找估值洼地,通过全面、系统性的扫描捕捉错误定价、错误估值带来的机会。定性投资经理大部分时间在琢磨哪家企业是伟大的企业,哪只股票是可以翻倍的股票;与定性投资经理不同,量化投资经理大部分精力花在分析哪里是估值洼地,哪个品种被低估了,从而买入低估的股票、卖出高估的股票。

第四,靠概率取胜。这表现在两方面:一方面是量化投资不断地从历史中挖掘有望在未来重复的历史规律并且加以利用;另一方面是依靠一组股票取胜,而不是依靠一只或几只股票取胜。

受益于计算机技术和市场数据供应的完善,进入21世纪后,量化投资方式开始飞跃成长。2000—2007年,美国量化投资总规模翻了4倍多。而同期的美国共同基金总规模(定量+定性)只翻了1.5倍左右。量化投资在全部投资中的占比从1970年为零发展到2019年的30%以上。

1.1.3 量化投资的核心——量化模型

西蒙斯在很长时期内,都是依靠判断来投资的,有时候大手进出。在这个过程中,他慢慢觉得很多价格的变化应该有规律可循。这个观察也不奇怪,西蒙斯毕竟是数学家出身。他说:“有一些价格走势不完全是随机的,这就是说有可能可以通过一定的方式来预测。”于是,慢慢地,西蒙斯开始逐渐转变成以量化投资为主的投资者。西蒙斯说:“20世纪80年代末,我完全停止了基本面分析,变成了一个彻底的、依靠模型的量化投资人。”

西蒙斯代表的是一类被看作推论公式、信任模型的投资家。他们通过收集分析大量数据,利用计算机来筛选投资机会,并判断买卖时机,将投资思想通过具体指标、参数的设计体现在模型中,并据此对市场进行不带任何主观情绪的跟踪分析,借助于计算机强大的运算能力根据模型进行投资,以保证在控制风险的前提下实现收益最大化。

所以说,对于量化投资而言,量化模型就是量化投资的精华。有了它,用户根本不需要关注消息面、新闻面及传闻,唯一做的事情就是面对模型,按照模型操作。当然,如果模型有新闻、传闻等影响因子,那么就要对其进行关注。用户平时应多做一些不同类型的模型,方便自己的交易。当然,有效的交易模型很难找,但手上有一个有效的模型,就不愁财富了。当你的量化投资模型越来越多时,财富便会自然而然地向你奔涌而来。

下面介绍量化投资最典型的两个模型。

1)多因子模型

多因子模型是应用最广泛的一种选股模型,基本原理是采用一系列因子作为选股标准,满足这些因子的股票则被买入,不满足这些因子的股票则被卖出。

举一个简单的例子:如果有一批人参加马拉松,想要知道哪些人会跑到平均成绩之上,那么只需要在跑前做一个身体测试即可。那些健康指标靠前的运动员,获得超越平均成绩的可能性较大。多因子模型的原理与此类似,只要找到那些与企业的收益率最相关的因子即可。

各种多因子模型的区别主要有两方面:一方面是因子的选取;另一方面是如何用多因子综合得到一个最终的判断。

一般而言,多因子模型有两种判断方法:打分法和回归法。打分法就是根据各个因子的大小对股票进行打分,然后按照一定的权重加权得到一个总分,根据总分再对股票进行筛选。回归法就是用过去的股票的收益率对多因子进行回归,得到一个回归方程,然后把最新的因子值代入回归方程得到一个对未来股票收益的预判,再以此为依据进行选股。回归法就是常用的数据挖掘技术之一。

多因子模型的建立过程主要分为候选因子的选取、选股因子有效性的检验、有效但冗余因子的剔除、综合评分模型的建立、模型的评价及持续改进5个步骤。候选因子的选取主要依赖于经济逻辑和市场经验,但选择更多和更有效的因子无疑是增强模型信息捕获能力、提高收益的关键因素之一。

2)择时模型——SVM模型

在量化投资领域中,一个好的选股策略是比较容易实现的,但择时就不是那么简单了。而支持向量机(SVM)模型就可以基于数据挖掘出比较合适的交易时机。

SVM是一种基于统计学习理论的模式识别方法,现在已经在生物信息学、文本和手写识别等应用领域取得了成功。SVM能非常成功地处理分类、判别分析等问题,并可推广到预测与综合评价领域。它的核心思想可以概括为:寻找一个最优分类超平面,使得训练样本中的两类样本点尽量被无错误地分开,并且要使两类样本点的分类间隔最大。

SVM模型的作用是判断大盘的涨跌,并根据判断结果进行交易操作。SVM模型中的输入变量一般有股市本身运行的参数,也可以考虑经济数据。一般其输入变量主要有四大类,分别是市场前期走势、货币环境、经济指标和外围环境,当然各投资机构所用的划分依据、变量会略有不同,主要与投资者的观点和策略有关。

从实证结果来看,SVM模型确实是一种不错的择时模型。图1-1和图1-2分别为通过SVM模型预测涨跌的时间序列和通过SVM模型判别对上证指数的累计市值趋势。从模拟结果来看,效果还是不错的。SVM模型的缺点在于对震荡市场和下跌市场的预测能力较差,并且交易信号较为频繁。而随着经济数据量、指数系列的丰富及二次择时模型的开发,SVM模型还有很大的改进空间。

图1-1 通过SVM模型预测涨跌的时间序列(1和-1分别代表看涨和看跌)

图1-2 通过SVM模型判别对上证指数的累计市值趋势

1.1.4 量化模型的主要产生方法——数据挖掘

量化模型的建立,首先要建立股市信息统计分析的基础,然后要对量化模型进行历史数据的模拟验证,只有验证效果好且稳定的模型才会投入实盘操作中。通常量化模型的建立需要通过如下几步:

(1)建立股市信息统计分析的基础,从大量的数据中通过数据挖掘找出赚钱股票的内部联系、进入点和退出点的基本特征。有些数据,通过比较简单的统计分析就可以发现规律;有些复杂的模型,需要用到数理统计的聚类分析等算法,以及最大信息熵、人工智能等多种理论。

(2)利用量化模型进行历史数据的模拟验证。两个星期做到5%的收益,至少要保证所有历史数据(包含历史上的所有时期,不仅包含牛市数据,还包含熊市数据)的有效率超过80%,当然,也可以做出一个每个星期赚10%的模型。对模型而言,交易稳健也很重要。

(3)如果量化模型在实验过程中盈利的成功率超过80%,那么就可以进行实战模拟验证。经过3个月的实战模拟验证,再对模型在操作中出现的问题进行校正。如果模型能使10笔交易的胜率超过8笔以上,那么就可以加仓。

(4)在实战中监控量化模型。如果某一个阶段,连续发生3次模型交易失败的事情,就要停止操作,重新观察模型,分析模型失败的原因,回到步骤(1)修正模型,再重新进行步骤(2)~(4)。

从上述量化模型产生的过程可以看出,量化模型从产生到模拟验证再到实盘验证的整个过程中,一直需要处理大量的数据,用到数据挖掘的各种技术,如关联规则、决策树、神经网络和SVM等。所以,可以说数据挖掘是量化模型产生的主要方法。

大奖章基金偏好的是基于数据挖掘的交易策略。20世纪90年代中期,许多交易所开始提供高频金融数据。交易者在支付一定费用后,指令数据和订单流数据都能够得到。事实上,这也是金融市场微结构领域研究开始发展的时期。研究发现,价格并不实时反映信息,信息融入价格有一个过程,但是人们对高频时间框架下金融市场的运行规律并不十分了解。事实上这个领域成了西蒙斯的蓝海。人们推测,通过麾下精通数据挖掘技术的团队,以及对指令数据和订单流数据的大规模数据挖掘,西蒙斯在这个领域中找到了很多成功的交易策略。

有了备选交易策略集合,投资者需要筛选出有效的交易策略。利用有效的交易策略能够在某种程度上对市场的未来行为进行准确预测。数据挖掘领域的常见做法是交叉验证,也就是将数据划分为建模样本和验证样本。有效的交易策略应该能够在建模样本和验证样本上体现出较好的预测效力。对于高频数据,由于数据量很大,做交叉验证很容易。对于低频数据,往往需要在一套数据上进行模型的开发与验证。

西蒙斯是著名的数学家,在西蒙斯的投资活动中,复杂的统计技术(如数据挖掘)占据着重要的地位。西蒙斯招募了大量IBM实验室机器翻译研究小组的人员。众所周知,数据挖掘在自然语言处理(包括机器翻译)领域有着大量成功的应用。这个领域中的专家的专长表现在两方面:熟悉多种数据挖掘算法;熟悉海量数据的处理。这两项技能的结合,不也正是投资领域的要求吗?

具体的数据挖掘技术将是本书接下来的重点内容,此处不再赘述。