2.3 前沿热点技术
2.3.1 人工智能保持高速发展
近年来,人工智能(AI)在数据、算法和算力三大要素的共同驱动下,进入高速发展阶段。据国际调研机构互联网数据中心(IDC)预测,2020年全球人工智能市场规模将达到1560亿美元,同比增长12.3%,其中占比最大的业务为人工智能软件业务,占比达到了80%。当前全球范围内,中美“双雄并立”构成人工智能第一梯队,日本、英国、以色列和法国等发达国家构成第二梯队。
1.多个国家和国际组织出台人工智能战略
世界各主要国家已从自发、分散性的自由探索为主模式,逐步发展成国家战略推动和牵引、以产业化及应用为主的创新模式。2019年6月,二十国集团(G20)部长级会议通过《G20人工智能原则》,推动建立可信赖人工智能的国家政策和国际合作。美国于2019年6月发布了《国家人工智能研究与发展战略规划》更新版,将原七大战略更新为八大战略优先投资研发事项,重点超前布局算法和芯片。2020年2月,欧盟发布数据和人工智能战略,该战略提出开放、公平、多样化、民主和自信的发展目标,明确面向未来的数字化变革理念与行动,确保数字化变革惠及所有。
2.人工智能算法突破不断
人工智能算法效率持续保持高速提升。根据OpenAI组织发布的报告,在ImageNet分类中训练神经网络达到相同性能所需的计算量每16个月减少了2倍。与2012年相比,现在将神经网络训练到AlexNet所需的计算量减少了44倍。对于普遍的人工智能计算任务,算法进步比硬件性能产生的效果更好。
(1)在计算机视觉方面,大规模的无监督、自监督模型成为主流,减少学习数据量和利用未标注数据成为研究热点。牛津大学的研究团队开发了单图像基于对称结构的3D可变形物体识别的方法[7],可以准确地恢复单目图像中人脸、猫脸和车辆的3D形状,且无须任何监督或先验形状模型。西蒙弗雷泽大学和谷歌研究院的团队开发了基于BSPNet无监督学习方法[8],使用基于一组平面构建的BSPtree获得的一组凸面重构形状。生成的网格是紧凑的(即低多边形),非常适合表示尖锐的几何形状。德国学者和脸书合作团队提出了基于多视图监督的弱监督人体表现捕捉深度学习方法[9],该方法完全不需要利用3D Ground Truth标注,网络架构基于的两个独立网络将人分解为姿态估计和非刚性表面变形步骤,得到当前最优的人体表现捕捉结果。
结合图形学和深度学习的神经渲染技术(Neural Rendering)成为巨大潜力的新兴模型。通过数据驱动的图形学系统可以利用多张图像区域来合成新的图像,并基于大规模的图像数据集来抽取典型的语义特征。Facebook研发人工智能注视点渲染DeepFovea,为一体机VR大大提升渲染效能。
域适应、对抗网络(GAN)、图神经网络(GNN)等技术的理论解析逐步深入。对于GAN存在的模式坍塌和收敛性等理论问题的深入分析,对于GNN算法原理解释、变体模型以及对各种图数据的拓展适配等工作纷纷涌现。
(2)在自然语言处理方面,语言模型参数量屡创新高。2019年8月,英伟达发布了包含83亿个参数的语言模型MegatronLM;2020年2月,微软发布了包含170亿个参数的Turing-NLG;在2020年7月,硅谷OpenAI组织发布的最新GPT-3模型包含1750亿个参数。这些模型在部分计算任务中达到了当前最高效果,但是其庞大的数据和计算量逐步成为小型开发团队进入该领域的门槛。
BERT和GPT等预训练+精调的方法路线成为主流。例如,谷歌的团队设计一种轻量级的Bert[10],该模型通过压缩模型数据量,有效地解决了模型通信开销的问题。来自香港大学和华为的研究团队提出了一种完全无监督的基于预训练的语言表征模型BERT(Bidirectionl Encoder Representation from Transformers)的句法分析方法——扰动掩码(Perturbed Masking)[11],该方法可量化分析人工智能对于句法结构的训练程度。
可解释的自然语言处理(NLP)逐步受到重视。微软研究院的团队提出了一种任务无关NLP模型测试方法CheckList,其包含一些通用语言能力和测试类型以促进全面测试,还包括一个软件工具,能够快速生成大量不同测试案例。通过这些测试案例发现了许多传统模型中隐藏的大量Bug。
知识图谱更加流行、检索重新回归。来自美国伊利诺伊大学香槟分校(UIUC)等机构的科研人员开发了首个综合开源的多媒体知识提取系统,该系统可基于不同的内容源和语言提取大量非结构化异构多媒体数据,并遵循丰富细粒度本体,创建出连贯且结构化的知识库、索引实体、关系和事件。该研究提出的操作系统Gaia可实现复杂图Query的无缝搜索,并检索出文本、图像和视频等多媒体信息。
3.人工智能中高端芯片仍由巨头垄断
人工智能芯片的主流技术路线有通用型GPU、半定制化FPGA、全定制化ASIC,不同类型芯片各具优势,在不同领域呈现多技术路径并行的发展态势。由于芯片基础层创新难度大、技术和资金壁垒高等特点,底层基础技术和高端产品市场仍然为少数国际巨头所垄断。GPU的设计和生产均已成熟,是人工智能芯片的首选。英伟达2019年推出的TeslaV100和TeslaT4具有极高性能和强大竞争力,其垄断地位也在不断强化。FPGA市场仍呈双寡头垄断:赛灵思(Xilinx)和英特尔(Intel)的FPGA合计占市场份额近90%。
ASIC是面向特定用户需求设计的定制芯片,可满足多种终端运用。ASIC前期需要大量的物理设计、时间、资金及验证,通常在量产后性能、能耗、成本和可靠性才具有一定优势。目前,ASIC芯片市场竞争格局稳定且分散,谷歌TPU是其中的典型代表。另外,2019年新兴的人工智能定制芯片有英国Graphcore推出的IPU、亚马逊推出的Inferentia、英特尔推出的Nervana NNP等。
4.开源深度学习框架逐渐趋同发展
主流开源深度学习框架PyTorch和TensorFlow逐渐与竞争者拉开差距,而且两者之间也逐渐趋同。2019年10月,TensorFlow 2.0正式版上线,主要改进点有GPU加速、自动求导、神经网络应用程序接口(API)。2020年4月,PyTorch 1.5正式发布,主要改进点是更灵活的前后端API整合。
(1)PyTorch在科研学术领域日益占据主导地位。2019年,PyTorch已成为占据压倒性比重的多数。据统计[12],69%的IEEE国际计算视觉与模式识别(CVPR)会议论文、75%以上的NAACL和ACL会议论文,以及50%以上的ICLR会议论文和ICML会议论文都选择使用PyTorch。PyTorch在计算机视觉和语言类的会议上(分别以2:1和3:1的比例超过了TensorFlow)被使用的频繁度很高,而且PyTorch在ICLR和ICML等通用机器学习会议上也比TensorFlow更受欢迎。除了在ICML会议上,其他学术会议中使用TensorFlow论文的增长率甚至还赶不上整体论文数量的增长率。
(2)在工业界TensorFlow仍然是主流的框架。2018—2019年的统计数据显示[13],涉及TensorFlow的新招聘信息有1541个,而涉及PyTorch的新招聘信息则是1437个;知名科技媒体Medium上有3230篇关于TensorFlow的新文章,而关于PyTorch的新文章只有1200篇;在GitHub上,用TensorFlow编写的项目获得了13700颗星,而用PyTorch编写的项目只获得了7200颗星。可见,在生产环境中TensorFlow更具优势。
2.3.2 量子信息关键性创新成果不断涌现
2019年以来,量子信息领域取得了飞速的发展和进步,一批具有代表性的工作成果不断涌现。在IBM、谷歌等国际科技公司的推动下,量子计算机的比特数规模与操纵精度不断提升,并逐步走向商业化。与量子计算机硬件研发相结合的量子云平台服务,量子软件开发也在微软和亚马逊等公司的领导下走出实验室推向市场。世界各国政府、研究机构在量子信息领域持续加大资金投入与政策支持,目前形成了全球多国参与、理论与实验研究并重、软硬件协同发展的新局面。
1.量子计算实现量子霸权
2019年10月,谷歌人工智能量子团队宣称,在其发布的最新超导量子计算处理器Sycamore芯片上实现了量子霸权(也称量子优势)。利用该53比特的量子计算机,谷歌在3分20秒内完成随机量子线路采样实验,实现深度为20的双比特门量子电路,包括430个双量子比特和1113个单量子比特门,总体保真度预计为0.2%。谷歌声称同样的任务在全球最强大的超级计算机Summit上执行,预计要花1万年的计算时间,而IBM公司则认为在经典计算机上模拟谷歌量子计算机的结果其实只需要2.5天。尽管存在一些关于经典模拟复杂度的对比和算法实际应用价值的争议,谷歌人工智能量子团队的研究成果在量子计算机的发展进程中仍是具有里程碑式意义的工作。
2019年,全球各大科技公司致力于开发和研究一系列可行的量子计算机方案,并逐步尝试将其投入商业应用中。2019年9月18日,IBM公司宣布开设新的Quantum数据中心,并推出新型53-Qubit量子机器,虽然未测试其量子体积,但是来自美国芝加哥大学的研究人员在2020年4月利用该量子计算机制备了纠缠态。2020年1月,IBM公司发布最新的28-Qubit量子计算机Raleigh的量子体积[14]达到32,相比在2019年初发布的全球首款商用量子计算原型机IBM Q System One,实现量子体积翻倍提升。2019年12月,英特尔推出代号为“Horse Ridge”的低温控制芯片,可实现对多个量子比特的控制,为大规模系统构建提供解决方案。2020年6月,霍尼韦尔公司推出了量子体积达到64的量子计算机,拥有质量最高、错误率最低的可用量子比特。
2.量子云服务与硬件结合飞速发展
量子计算机的高度专业性以及高研发成本,并不利于量子计算机的普及化应用与市场化推广。在此背景下,各大国际公司纷纷入局量子编程语言开发,布局量子云服务,以此降低量子计算机的使用门槛,使量子计算机走出实验室。2019年11月,微软发布Azure Quantum量子服务,包括量子解决方案、量子软件和量子硬件,是一个完整的开放式云生态系统。利用这项服务,可以通过云计算平台访问量子硬件提供商霍尼韦尔(Honeywell)的IonQ(来自美国马里兰大学)及QCI(来自耶鲁大学)的量子计算机原型机。2019年12月,亚马逊宣布推出量子计算服务Braket,并与3家量子计算公司D-Wave、IonQ和Rigetti合作,可让企业和开发人员通过云端服务访问相应的系统,这其中包括Rigetti公司推出的32-Qubit的量子计算机器。2020年,D-Wave推出混合量子计算云平台Leap 2,并免费提供给致力于新冠病毒研究的学者使用。
与量子云服务相配套的面向开发者的量子编程语言也取得一些新的成果,为量子计算机的使用者提供标准化/直观化的操作语言。2020年3月,谷歌发布了量子版的TensorFlow,使开发人员可以同时使用经典计算技术和量子计算机线路,来模拟创建混合人工智能算法。2020年4月,欧洲推出第一个公共量子计算平台Quantum Inspire,可访问世界首台使用可伸缩自旋量子比特的量子处理器。
目前,量子计算的软硬件处在协同发展的阶段,除了以上关于量子编程语言、云服务的进展,底层硬件研究也有许多新的成果不断涌现。2019年12月,英特尔推出代号为“Horse Ridge”的低温控制芯片,可实现对多个量子比特的控制。为解决量子比特的可拓展性问题,大规模系统构建提供解决方案。同一时期,俄罗斯和瑞典等国的科学家合作研发了一种可在室温下稳定工作的量子比特的制造方法,为创建量子计算机开辟了新的前景。2020年4月,悉尼新南威尔士大学的研究人员将量子计算平台的运行温度降到1.5K(开尔文),极大地降低了成本。
3.量子通信应用逐步落地
除了量子计算的飞速发展,量子信息领域的另一重要组成部分——量子通信技术以其绝对安全、大容量、高效等特点日益引起国际范围的极大关注。在实验与理论研究层面,国际上近期取得了一系列重要的研究成果。2019年10月美国哈佛大学的科学家利用金刚石中的量子比特演示了相干时间超过1 ms的单光子存储,可以在量子网络中作为具有高保真存储能力的寄存器,能够有效地与在光纤中传播的光子进行接口,为实现量子中继奠定了基础。2020年3月,来自英国牛津大学的研究人员报告了在离子阱系统中对两个远端量子比特的高速度高精度纠缠产生,为未来各种量子网络的应用提供新方法。
在政策方面,各国相继提出在量子通信领域的发展计划和战略布局。2020年2月,美国白宫国家量子协调办公室发布了《美国量子网络战略愿景》,提出美国将开辟量子互联网,确保量子信息科学惠及大众,并计划在未来5年内演示量子网络的基础科学和关键技术,从量子互连、量子中继器、量子存储器到高通量量子信道和探索跨洲距离的天基纠缠分发。除美国外,日本和欧洲等国家和区域也致力于推进量子通信产业化发展,多角度布局量子通信行业。2020年1月,日本东芝公司和日本东北大学宣布,其研究人员成功利用量子保密通信技术,在短时间内传输完整的人类基因组数据。俄罗斯计划利用铁路的基础设施打造量子互联网平台,相关试验区将在2021年启动。此外,英国和新加坡正在联合建立基于立方卫星的量子加密卫星链路,并计划在2021年底投入运行。
2.3.3 生物计算与存储迎来关键突破
当前,生物计算与存储的主流技术分别是利用大量DNA分子自然的并行操作及生化处理的DNA计算,以及利用DNA分子4种碱基A/T/C/G排列编码性能的DNA存储。
1.DNA计算技术迭代演进
DNA计算包括DNA神经网络模型、DNA链置换网络、生物型探针机等。构建计算模型的基础结构单元被称为DNA瓦片(DNA Tile),其可按一定程式自组装形成更复杂的结构实现特定功能。该基本结构起源于可判定性问题研究并被证明可用于模拟图灵机,当前有十字交叉结、多臂结、单链瓦片、DNA折纸瓦片等类型。
十字交叉结是其中最早开发目前最为成熟的技术,当前已拓展了多种纳米级规整网格和对称的立体结构,逐步实现自底向上的编程能力。2019年2月,美国加州理工学院的研究团队实现使用一组7种DNA单瓦片实现二进制6位可整除的计算,并将分子连接错误率控制在0.3‰以下,证明了DNA瓦片计算在理论和实际中的可行性。
折纸瓦片结构也称DNA折纸术,是目前最新的DNA瓦片结构。其可获得由DNA组装而成的任意几何图案并精确寻址。近年来,形貌控制组装方面取得了较大的进步,其在提升图案复杂度一个数量级的同时降低了编码复杂度一个数量级,为便捷的编码和简单的实验提供了基础。2019年,加州大学伯克利分校的研究团队开发了以DNA折纸作为模板形成具有等离子特性的完全金属化的纳米结构[15],可广泛应用于成像、标记和传感等领域。
2.DNA存储有望突破传统存储性能瓶颈
DNA分子的信息编码存储与计算操作的基础是利用DNA分子特性以及编码理论,构建出可操控的新型纳米尺度聚集体或超分子结构。其存储密度远高于当前的磁盘介质,每一个DNA上可以有125艾字节(1艾字节=2的60次方)的信息。2016年,华盛顿大学和微软合作开发出了一种全自动系统,用于编写、存储和读取DNA编码的数据,将共计739KB的数据编码成了DNA序列并存储起来,然后通过精心设计特定的引物,标记每一个文件在DNA序列上的地址进行数据的随机快速读取。2017年,哈佛大学的研究团队采用了CRISPR DNA编辑技术,将人类手掌的图像记录到大肠杆菌的基因组中,这些图像的读取精度超过90%。2019年1月,哥伦比亚大学的研究团队设计了一种结合3D打印的“物的DNA”(DoT)存储体系结构,即将存储物体所有信息的DNA与物体本身材料融合,实现物体在受损后仍能通过任何一小块中信息重新构建。
除了存储密度高,DNA存储在数据的保密性、完整性和不可否定性等方面具有天然优势。2019年11月,中国上海交通大学的研究团队开发了一套以DNA折纸技术为基础的DNA加密系统(DNA origami cryptography,DOC)。加密方将信息转化为点阵排列后以将其加密为杂交若干生物素化短链的骨架链;解密方则通过共享DNA骨架链密钥获得对应的结构信息再将DNA短链折叠为正确的形状。该方法实现了加密术与隐写术的整合,采用一条长7000碱基左右的骨架链可实现约700位的理论密钥长度,远超传统加密算法的强度。
3.生物计算前沿应用完成原型验证
基于DNA计算原理设计的可编程自组装智能纳米系统的生物相容性好,可以在细胞内工作,具有快速、敏感和特异性高的优点,其纳米结构的控制精度达原子级。2019年,美国加州理工学院的研究团队开发出了自组装规模达100万个单链DNA瓦片(Single Strand Tile,SST)的可编程DNA计算机,通过包含355个单链DNA分子的计算单元集合结合,在DNA折纸基底上设计出了21种可编程计算电路模块,可实现整数除法计算。
2.3.4 脑机接口逐步从概念走向原型设计
脑机接口(brain-computer interface,BCI)是在脑与外部环境之间建立直接交互的一种技术,主要分为侵入式和非侵入式。在脑机接口系统的开发中,硬件设备、解码算法及实验范式均扮演着重要的作用。
1.硬件技术取得新突破
近年来,脑机接口硬件发展迅速。碳纳米管等新型纳米材料被应用于电极设计,催生了具有消炎涂层的电极、可用于皮层脑电记录的柔性石墨烯溶液门控场效应晶体管等器件。脑机接口硬件技术进步极大地提高了信号质量,延长了使用寿命并有效扩展了使用人群,在脑机接口领域不断产生变革和创新。
(1)脑机接口硬件集成程度逐步提升。2019年7月,美国Neuralink公司发布了一款可扩展的高带宽脑机接口系统。该系统包含小而灵活的电极线程阵列,每个阵列多达96根线程,每根线程带有32个电极,共分布了多达3072个电极,可以同时监测1000多个神经元的活动,具有高包装密度和高可扩展性。日本熊本大学和山口大学的研究团队将近红外光谱、皮层脑电和负温度系数热敏电阻传感器的多通道测量功能集成到单个设备中。
(2)非侵入式设备便捷性大幅提升。2019年11月,英国诺丁汉大学的团队开发了一种基于自行车头盔改造的可穿戴脑磁系统,该系统可适应不同年龄段的受试者,数据保真度高且无须限制受试者的活动。2020年,佐治亚理工学院的研究团队开发了基于柔性膜电路的便携头皮电子系统,利用卷积神经网络进行时域分析,可对稳态视觉诱发电位进行准确、实时地分类。清华大学的研究团队开发了基于多种新材料的兼顾机械稳定性和柔性的脑电电极,可在有毛发皮肤上获得与在无毛发皮肤上相当的精度。
2.多种技术体系成果不断
常规脑机接口有两种技术路线:内源诱导范式和外部刺激范式。内源诱导范式依赖于大脑节律的自主调节,尤其是与运动任务相关的调节。非侵入式方法以感觉运动节律作为脑机接口的特征;侵入式方法通常从神经元锋电位(Spike)或局部场电位解码运动信息。外部刺激范式依赖于外部刺激来诱发大脑反应,一般由视觉、听觉、体感刺激产生的事件相关电位开发。
近年来,新型的脑机接口技术创新也不断涌现,例如互适应脑机接口、情绪脑机接口、认知脑机接口、多人脑-脑接口等。众多新技术的涌现扩大了脑机接口的应用范围,同时也进一步推动了技术本身的发展。此外,结合各自优势的混合脑机接口发展势头良好。2019年,匹兹堡大学的研究团队提出了综合利用脑电、肌电、眼电等信息,以及近红外光谱、功能性经颅多普勒超声等其他神经活动检测方法的混合脑机接口。
在脑机接口算法方面,神经解码算法因其高效的解码精度而获得重视。脑信号特征主要有频带能量和时域特征,包括蚁群算法、模拟退火算法的元启发式(Metaheuristic)方法。此外,还有采用监督学习和数据驱动的方式获得空间滤波器,包括共空间模式(CSP)、xDAWN、Fisher空间滤波器以及任务相关成分分析等。目前主流分类算法有4类:自适应分类器、矩阵和张量分类器、迁移学习以及深度学习。在迁移学习类中,跨个体迁移方法、跨设备迁移方法以及流形嵌入知识迁移(Manifold Embedded Knowledge Transfer,MEKT)方法相继被提出。在深度学习类中,卷积神经网络和有限玻尔兹曼机应用较多,但在大规模训练数据集支撑方面仍有待改进。
3.脑机接口探索多样化应用
脑机接口应用关注于解码大脑信号并输出用户意图,主要分为医学领域应用和非医学领域应用。医学领域应用已运用于神经系统受损患者(包括脑卒中、肌萎缩侧索硬化症和脊髓损伤)康复训练中,对语言等感知信号识别准确率持续提升;非医学领域应用通过结合虚拟现实、智能家居等技术逐步探索市场化发展。
(1)在医学领域的应用。2019年4月,加州大学旧金山分校的研究团队利用基于颅内微电极采集到的大脑控制唇、舌、喉运动的神经信号来合成语音[16],达到了人类可有效识别的水平。该团队又发布了基于高密度皮层脑电(ECoG)信号的模拟自然问答对话系统,生成语音和感知语音的解码准确率分别达到了61%和76%。该团队还利用朗读文本时收集的ECoG信号,成功训练了一个可以将ECoG信号“翻译”为连续文字的深度循环神经网络模型,经测试解读错误率最低可以达到3%。这些成果为瘫痪患者的言语恢复带来了希望。
2019年7月,卡内基梅隆大学与明尼苏达大学的研究团队研制出了一款非侵入式的意念控制机械臂,能够连续追踪随机目标。2019年12月,法国格勒诺布尔-阿尔卑斯大学的研究团队开发了利用硬膜外ECoG信号控制外骨骼系统行动的脑机接口系统[17],帮助四肢瘫痪患者再次行走。2020年3月,美国巴特尔研究所发布了可实现同时恢复运动与触觉功能的脑机接口系统[18]。该系统从初级运动皮层活动反映的运动意图中提取出触觉信号并形成反馈,帮助脊髓损伤患者恢复触摸感知。
(2)在非医学领域的应用。2018年1月,美国脑机接口初创公司Neurable开发了一款名为Awakening的脑控游戏。该款游戏利用带有脑电电极的头带与虚拟现实头戴式设备,让佩戴者训练自身大脑以响应脑信号进行互动。2018年11月,加州伯克利大学的研究团队开发了结合虚拟现实头戴式设备的便携式稳态视觉诱发电位脑机接口[19]。2019年4月,中国科学院的研究团队利用脑电生物信息具有难以模仿的特点,开发了一款基于编码调制的视觉诱发电位,可用于实现个体身份识别[20]。