
1.4.1 历史大事件概述
2015年,曼宁提到深度学习“海啸”:“在过去的几年中,深度学习的浪潮在计算语言学领域不断涌现,但在2015年,深度学习秉海啸之势涌入自然语言处理(natural language processing)的会议。”深度学习不仅在NLP领域,还在计算机视觉(computer vision)等其他人工智能领域占据着十分重要的地位。凭借着一代又一代科研工作者的努力和天才的创新型思想,神经网络发展至深度学习时代。神经网络的发展历史主要包括起源、兴盛、深度学习这三个阶段。
1.起源
20世纪50年代至20世纪80年代是传统机器学习方法的年代。在这个阶段,人工智能的研究工作从传统线性回归逐渐过渡到监督学习。传统线性回归是指直接求解合适的平面去拟合数据,监督学习则是利用训练集和测试集去“学习”一个平面来拟合数据。1943年,McCulloch-Pitts神经元模型(简称MP神经元模型)在论文《神经活动中所蕴含的思想的逻辑活动》中被首次提出,它利用数学模型简化了生物学神经元,但并不具有“学习”的功能。该模型对后续研究有非常深远的影响,至今几乎所有的神经网络,包括深度学习模型,都仍然采用最基本的MP模型架构。MP神经元的出现标志着人工神经网络的诞生。
1949年,在《行为的组织》一书中,心理学家Hebb对神经元之间连接强度的变化规则进行了分析,并基于此提出了著名的Hebb学习规则:如果两个神经元在同一时刻被激发,则其之间的联系应该被强化。后人基于这一原理,对Hebb学习规则进行了补充,提出了扩展的Hebb学习规则:若神经元A和神经元B之间有连接,当神经元A被激发的同时,神经元B也被激发,则其之间的连接强度应该增强;但若神经元A被激发的时候,神经元B未被激发,则其之间的连接强度应当减弱。继Hebb学习规则之后,神经元的有监督Delta学习规则被提出,用以解决在输入/输出已知的情况下神经元权值的学习问题。Delta学习规则用于监督学习过程,通过对连接权值进行不断调整,使神经元的实际输出和期望的输出达到一致,从而使得学习过程收敛。
1958年,Rosenblatt等人成功研制出了代号为Mark I的感知机(percep-tron),这是历史上首个将神经网络的学习功能用于模式识别的装置,标志着神经网络进入了新的发展阶段。感知机引发了神经网络历史发展中的第一个高潮。感知机的主要思路是通过最小化误分类损失函数来优化分类超平面,从而对新的实例实现准确预测。假设输入特征向量是一个n维的特征向量,输出的类标空间是二维的,即只有两个类,标号分别为+1和-1。即输入特征向量为x∈ℝn,输出类标为y∈{+1,-1},则感知机模型为
y=f(x)=Sgn(wx+b),
其中的f函数的定义有多种,根据不同的定义,有不同的优化方法来优化分离超平面,从而对新的实例实现准确预测。通过已经存在的样本来最小化误分类的损失,求出可以用于分类的超平面后,即可使用新的实例来进行验证。
从感知机的提出到1969年之间,出现了神经网络研究的第一个高潮。此间,人们对神经网络甚至人工智能抱有巨大的信心。然而1969年,Minsky和Papert所著的《感知机》一书出版,他们从数学的角度证明了单层神经网络(即感知机)具有有限的功能,甚至无法解决最简单的“异或”逻辑问题。这给当时神经网络感知机方向的研究泼了一盆冷水,美国和苏联在此后很长一段时间内也未资助过神经网络方面的研究工作。此后很长一段时间内神经网络的研究处在低迷期,称作神经网络的寒冬(AI winter)。
到了20世纪80年代,关于神经网络的研究慢慢开始复苏。1982年,Hop-field等人提出一种名为Hopfield的神经网络,解决了非多项式复杂度的旅行商问题。Hopfield网络在一定程度上使神经网络的研究复苏。1983年,Sejnowski和Hinton首次提出“隐藏单元”的概念,并基于此设计出玻尔兹曼机(Boltz-mann Machine,BM)。玻尔兹曼机是一种由随机神经元全连接组成的反馈神经网络,包含一个可见层和一个隐藏层。网络中神经元的输出只有两种状态(未激活和激活,分别用二进制0和1表示),其取值根据概率统计规则决定。但玻尔兹曼机存在着训练和学习时间过长的问题,所以影响了它的实际应用。此外,难以准确计算玻尔兹曼机表示的分布,得到服从玻尔兹曼机所表示分布的随机样本也很困难。基于以上原因,人们对玻尔兹曼机进行了改进,提出了限制玻尔兹曼机(Restricted Boltzmann Machine,RBM)。相比于玻尔兹曼机,RBM的网络结构中层内神经元之间没有连接,尽管RBM所表示的分布仍然无法有效计算,但可以通过Gibbs采样得到服从RBM所表示分布的随机样本。2006年,Hinton提出了深度信念网络(Deep Belief Network,DBN),以RBM为基本组成单元,这是人类历史上第一个深度学习网络,同时也是目前深度学习的主要框架之一。这一阶段的神经网络已经从起初的单层结构扩展到了双层,隐藏层的出现使得网络具有更强的数据表示能力。
1974年,Werbos在他的博士论文里提出了用于神经网络学习的反向传播(Back Propagation,BP)算法,为多层神经网络的学习训练与实现提供了一种切实可行的解决途径。1986年以Rumelhart和McClelland为首的科学家小组在N ature上发表论文,对多层网络的基于误差的反向传播算法进行了详尽的分析,进一步推动了BP算法的发展。
1989年,Cybenko、Funahashi、Hornik等人相继对BP神经网络的非线性函数逼近性能进行了分析,并证明了对于具有单隐藏层、传递函数为Sigmoid的连续型前馈神经网络可以以任意精度逼近任何复杂的连续映射。为模拟生物神经元的局部响应特性,Broomhead和Lowe于1988年将径向基函数引入神经网络的设计中,形成了径向基函数(Radial Basis Function,RBF)神经网络。后来,Jackson和Park分别于1989年和1991年对RBF在非线性连续函数上的一致逼近性能进行了论证。Hopfield网络、玻尔兹曼机和BP算法的发展,引发了神经网络研究的第二次热潮。特别是BP算法的发展,将热潮推到了一个新的高度。
2.兴盛
1989年在“Multilayer Feedforward Networks Are Universal Approxima-tors”一文中,作者给出了数学证明,证明多层结构可以使神经网络在理论上拟合任意函数,包括异或(XOR)等。同年,Yann LeCun和贝尔实验室的其他研究者将理论用于实际问题,通过利用多层神经网络和BP算法,成功地识别手写邮政编码,并发表了“Back Propagation Applied to Handwritten Zip Code Recognition”一文,为现代神经网络学习打下了基础。在Yann LeCun的论文中,除了反向传播的应用外,还提出了对神经网络的改进:卷积(convolution)。卷积通过“权值共享”大大加速了神经网络的学习过程。因此,Yann LeCun也被称为卷积神经网络(Convolutional Neural Network,CNN)之父。而“权值共享”的概念早在1986年就被Rumelhart、Hinton和Williams等人详细论证过。此外,在1980年的“Neurocognitron”一文中,Kunihiko等人也提到了类似的概念,称之为自编码器(autoencoder),其结构如图1.2所示。自编码器是一种无监督的特征学习网络,它利用反向传播算法,让目标输出值等于输入值。对于一个输入x∈ℝn,首先将其通过特征映射得到对应的隐藏层表示h∈ℝm,隐藏层表示接着被投影到输出层∈ℝn,并且希望输出与原始输入尽可能相等。自编码器试图学习一个恒等函数,当隐藏层的数目小于输入层的数目时可以实现对信号的压缩表示,获得对输入数据有意义的特征表示。通常隐藏层权值矩阵和输出层权值矩阵互为转置,这样大大减少了网络的参数个数。

图1.2 自编码器网络结构
为了解决出现在自然语言以及音频处理中的长序列输入问题,循环神经网络(Recurrent Neural Network,RNN)应运而生,RNN通过将输出再一次输入当前神经元来赋予神经网络“记忆”能力,使得神经网络可以处理和记忆序列数据。自80年代BP算法被提出来以后,CNN、自编码器和RNN相继得到发展,这为深度学习时代的到来奠定了基础。
3.深度学习
2000年以来,由于GPU等硬件所提供的算力提升,以及大数据时代的加持,许多神经网络都在往“更深”的方向发展。深度学习作为机器学习的一个分支,在计算机视觉、自然语言处理等方向大放异彩。深度学习的思想在过去很长一段时间之前已经产生,但当时没有取得成功的原因主要有两点:第一,没有足够的训练数据;第二,缺乏高性能的并行计算能力。
ImageNet数据集的产生是深度学习时代具有标志性的事件之一。2009年,华人学者李飞飞和她的团队在CVPR2009上发表了一篇名为“ImageNet: A Large-Scale Hierarchical Image Database”的论文,并且附带了数据集。Ima-geNet数据集被广泛应用于深度学习图像领域,关于图像分类、定位、检测等研究工作大多基于此数据集展开。此外,ImageNet数据集也被用作竞赛的标准数据集。2012年,Hinton和他的学生Alex Krizhevsky在参加ImageNet竞赛时,把卷积神经网络深度化,设计出AlexNet网络,获得了当年的竞赛冠军。AlexNet的成功引发了人们对深度卷积神经网络的极大兴趣,随之而来的是更多、更深入的神经网络的相继提出。
前文所述的神经网络可以归为判别式网络模型,即对输入数据进行分类或判别,学习如何区分不同类别并建立有效的决策边界;而最近十年以来,一类全新的模型——生成式网络诞生了,生成式网络致力于学习数据的分布,以便能够生成新的、与训练数据相似的样本。生成式模型的发展经历了多个关键阶段,其中三个主要的代表性模型是生成对抗网络(GAN)、变分自编码器(VAE)和transformer。生成对抗网络最早由Ian Goodfellow等人于2014年提出,通过对抗训练的方式让生成器和判别器相互竞争,逐渐提高生成器生成逼真样本的能力。GAN在图像生成、风格转换等领域取得了巨大成功,为生成式模型的研究奠定了基础。变分自编码器作为另一种生成模型,由Kingma和Welling于2013年提出。VAE以概率图模型为基础,通过一个编码器网络将输入数据映射到潜在空间,并在这个潜在空间中进行采样,从而生成新样本。
随着深度学习技术的不断发展,生成式模型逐渐迈向更大规模、更复杂的模型。Transformer模型的提出推动了大模型的发展,而GPT(生成式预训练)系列则成为其中的杰出代表,包括GPT-3.5和GPT-4。这些模型通过大规模的预训练学到通用的语言表示,进而在多个领域展现出强大的生成和表达能力。
4.神经网络发展的历史:总结
在此总体回顾整个神经网络发展的历史:20世纪40年代是神经网络研究的萌芽期,这一时期出现了MP网络、Hebb学习等重要概念;20世纪五六十年代,神经网络第一个黄金时代到来,学者提出了感知机、ADALINE等,并第一次成功应用于商业;20世纪70年代是神经网络发展的安静年代,也称为“寒冬时代”,但仍有学者坚持研究神经网络,这一时期出现了联想记忆模型、自组织映射网等重要研究;20世纪80年代,神经网络的研究开始复苏,出现了BP算法、Hopfield网络、玻尔兹曼机等具有影响力的研究;当下正处于深度神经网络时代。图1.3分别标注了神经网络发展历史上的一些大事件。不难发现,重大的神经网络发现通常可以带起一个辉煌的人工智能时代,使得更多人参与到人工智能的研究当中。而神经网络局限性的发现,也会迅速让人工智能领域的热度退却。从长远来看,人工智能的发展离不开对人类智能的模拟,神经网络则是当下对人类智能最优的模拟之一。因此,尽管有高峰和低谷,作为研究者应该明白的是,对于神经网络的研究,道阻且长,需要所有研究者共同贡献自己的聪明才智。

图1.3 神经网络发展历史