五、人工智能
自2016年AlphaGo战胜人类围棋冠军以来,人工智能技术受到各国高度重视。各国政府从政策规划、资金投入和研发力量等各方面进行支持,推动底层算法和架构技术升级,加速人工智能在安防、教育、医疗和交通等领域的应用落地,人工智能产业规模得以大幅提升。2019年,科学家推动下一代人工智能技术研发,强化人工智能的语言理解能力;人工智能在图像视频和语音识别领域的应用进一步拓展;同时,以深度伪造技术为代表的人工智能造假技术扩散,给国家安全和社会治理带来新风险与新隐患。
(一)基础研究
在大数据、深度学习与计算能力大幅提升的背景下,人工智能已经实现了相对简单的感知智能,但仍处于初级阶段。未来,推动人工智能与传统产业的深度融合,实现人工智能在多个领域的规模化应用,以及将人工智能深入应用于人类生活,都需要加强人工智能基础研究,从而突破机器认知能力的限制,促进科研与产业的深入探索,降低人工智能的应用门槛,构建完善的人工智能产业应用发展体系。
1.美国加州大学伯克利分校开发出深度强化学习算法
2019年1月,美国加州大学伯克利分校和谷歌大脑项目的研究人员开发出一种稳定的深度强化学习算法,该算法只需要适量的试验和最小限度的参数调整,即可学习多层神经网络策略。该算法基于最大熵强化学习框架,能够对学习过程进行动态、自动调整。借助该算法,计算机可在两小时内完成对四足机器人运动步态的学习。
2.DARPA启动多个人工智能研究项目
2019年1月,DARPA启动“微尺度仿生鲁棒人工智能网络项目”,对昆虫进行仿生研究以改进人工智能系统。DARPA 希望该项目通过模仿昆虫大脑,改善现有人工智能系统神经形态和神经架构依赖数字计算的情况,从而缩短人工智能训练时间,提高计算效率并降低功耗。
2019年1月,DARPA启动“知识导向的人工智能推理模式”项目,希望利用人工智能对复杂的现实世界事件进行语境和时间推理,生成对这些事件的解读,并预测这些事件将如何展开。该项目将开发一个半自动化系统,以识别看似无关的事件或数据之间的相关性并绘制关系图谱,帮助人们迅速理解事件对国家安全工作的影响。
2019年3月,DARPA启动“基于理解的人工智能语言习得”项目,旨在构建能够理解话语含义的人工智能工具,使它运用逻辑和推理能力进行语言学习与表达。DARPA 希望通过对人工智能语言系统语言习得方式的研究,建立一个自动语言习得模型,使人工智能语言系统能够像人类孩童一样,在观察外部环境的同时学习语言。DARPA 还计划利用该项目开发一个原型,将文本或语音输入与图像、视频或先前未见过的实体、动作的虚拟视觉场景关联起来,并生成事件和关系的英文描述,从而训练人工智能系统的语言习得能力。
3.美国北卡罗来纳州立大学开发出新型深度神经网络框架
2019年5月,美国北卡罗来纳州立大学开发出新型深度神经网络框架。该框架可使人工智能系统在更好地学习新任务的同时,保留其在之前任务中学到的东西,以便更好地执行新任务和旧任务。研究人员对比其他神经网络框架发现,新框架下的人工智能系统经过培训后,在执行新任务时几乎不会忘记执行旧任务所需的内容,且在完成新任务时具有更高的准确性。该项研究由美国陆军资助完成,有望用于军队人工智能系统。
4.美国空军与美国麻省理工学院合作开展人工智能研究
2019年5月,美国空军宣布与麻省理工学院签订合同,拟通过推动计算智能、推理、决策、自主和相关社会影响的基础研究加速人工智能技术研发。美国空军计划与美国麻省理工学院建立50年的合作关系,每年投资约1500万美元。根据合同,研发团队成员将包括11名美国空军飞行员,主要目的是为“实际的国家安全挑战”提供实用的人工智能解决方案。研究团队将致力于研究决策支持、维护和后勤、人才管理、医疗准备、态势感知、商务和救灾等多个人工智能项目。
5.美国计算社区联盟发布《未来20年美国人工智能研究团体路线图》草案
2019年6月,美国计算社区联盟(Computing Community Consortium,CCC)发布《未来 20年美国人工智能研究团体路线图》草案。该路线图是在咨询研究人员和科技公司之后制定的,旨在呼吁联邦政府持续提供支持,以确保美国在一些最先进的人工智能资源方面保持全球领先地位。该路线图提出的建议有构建开放性人工智能平台、启动全国人工智能竞赛、成立国家级研究中心和人工智能实验室、支持自知学习的研究及启动人才招募计划等。
6.美国联合研究团队开发出新型人机交互对话系统
2019年7月,美国纽约州立大学宾汉姆顿分校(State University of New York at Binghamton)、美国克利夫兰州立大学(Cleveland State University)和美国华盛顿大学的联合研究团队开发出新型人机交互对话系统,该系统可通过自我学习提高理解能力。机器人借助语言理解、对话管理、知识管理和语言生成4个模块,能够在与人类的对话中学习、理解语义。研究人员将开展后续研究,使机器人能够完成交付包裹等实际任务,同时学习周围环境中的新概念。
(二)图形图像处理
近年来,人工智能技术在图形图像处理与识别领域大范围应用,并且取得极大的成功。智能图像处理与识别从早期在军事和科研领域的小范围应用,发展至今已经广泛应用到智慧城市、医疗、交通、安防、农业、工业和娱乐等各行各业,其中人脸识别和深度伪造技术更是在全球范围内获得关注。
1.日本电气股份有限公司开发出新型面部识别技术
2019年2月,日本电气股份有限公司开发出新型面部识别技术,该技术可识别面部模糊部分,甚至面向其他方向的人脸。该技术名为“人物再识别技术”,结合使用深度学习、身体形状及衣服分析技术,在测试过程中实现了高达90%的准确率。该技术可用于全身识别而不仅是面部识别,有望在人群中或存在大量视觉障碍物区域等场景中部署以进行身份识别。
2.谷歌研发出可大幅提升图像生成效率的新技术
2019年3月,谷歌的研究人员提出了一种基于自监督和半监督学习的“条件生成式对抗网络”,该技术可使图像生成需要使用的标记数据量降低90%,且生成的图像的质量比现有全监督最优模型高20%。研究人员将高保真自然图像合成技术与最先进的大规模生成式对抗网络技术相结合,大幅提升图像生成的效率,该技术有望缓解图像生成和识别领域标记数据量严重不足的问题。
3.三星利用有限的数据集即可制作出高仿真度虚假视频
2019年5月,三星人工智能中心研发出一种新方法,通过该方法,研究人员利用有限的训练数据集即可制作出高仿真度虚假视频。受技术水平限制,要想让深度伪造视频达到令人信服的效果,需要采用大量的数据集并对模型进行反复训练。研究人员从YouTube上收集了7000张名人照片,从中提取出脸部、眼睛、嘴巴等标志性面部特征用于训练算法,最终利用该算法成功制作出高仿真度的虚假视频。研究人员将这种算法应用至单一照片,亦能生成难辨真伪的人物图像。
4.英国布拉德福德大学面部识别技术取得突破性进展
2019年5月,英国布拉德福德大学(University of Bradford)研究的面部识别技术取得突破性进展,可对遮盖1/4甚至1/2的面部进行精准识别。研究人员采用卷积神经网络架构开发新型面部识别技术,使用余弦相似度和线性支持向量机测试识别率,在两个公开可用的人脸数据集上进行了试验。试验结果表明,该架构扫描整个面部的3/4甚至1/2时的识别准确率能够达到100%。研究人员表示,此项突破有望推动人脸识别技术应用于安防或预防犯罪等领域。
5.美国麻省理工学院与美国IBM公司合作开发出可创建虚假照片的人工智能工具
2019年7月,美国麻省理工学院与美国IBM公司的研究人员合作开发出能够生成虚假图像的人工智能工具GANpaint Studio。该工具经过神经网络训练后,能够掌握物体之间归属关系的简单规则,可在图像内生成虚假对象或除去对象。研究人员表示,对GANpaint Studio学习机制的研究还将有助于图片鉴伪工作的开展。
6.德国波茨坦大学研发出通过眼球运动识别人类身份的方法
2019年7月,德国波茨坦大学(Potsdam University)的研究人员开发出一种新的生物识别方法,研究人员可通过人工智能分析眼球微观运动以识别人类身份。研究人员使用深度学习方法训练计算机识别人类无意识的眼动行为,使识别更为精准、破解难度更高。该研究有望大幅提高生物特征识别的安全性。
7.美国加州大学河滨分校开发出用于识别深度伪造图像和视频的深度神经网络架构
2019年7月,美国加州大学河滨分校(University of California,Riverside)的研究人员开发出一种深度神经网络架构,该神经网络架构可用于识别使用深度伪造技术制作的图像和视频。该神经网络架构可通过检测图像内元素的不自然特征,识别出修改过的图像。研究人员表示,尽管技术进步能够推动鉴伪工作的开展,但造伪技术的升级使鉴伪工作无法完全实现自动化,识别伪造的图像和视频仍存在难度。
8.美国智能追踪公司正在开发新型追踪技术,以减小对面部识别的依赖
2019年8月,美国智能追踪公司(Traces AI)正在开发新型追踪技术,该技术使用多种个人特征识别身份,能够降低对面部识别的依赖。研究人员表示,传统监视器跟踪技术过于依赖人脸识别,可能会侵犯到公众的隐私。Traces AI研究的识别技术不过度关注人脸,而是依赖个人的其他物理属性,如衣服、发型和肢体语言等进行识别。Traces AI希望新型追踪技术能替代政府机构执法过程中采用的人脸识别技术,以最大限度地保护公众隐私。此外,不依赖人脸识别的追踪技术也可减少计算机系统造成的种族歧视。
9.美国南加州大学和美国加州大学伯克利分校研发出可识别出DeepFakes虚假视频的人工智能工具
2019年9月,美国南加州大学(University of Southern California)和美国加州大学伯克利分校的研究人员合作研发出可识别出深度伪造视频的新人工智能工具,其识别准确率达到92%。该工具可通过训练确定每个人讲话或做表情时面部各器官的特定细节动作,由此识别出伪造视频。研究人员还计划通过识别人声的独特节奏和特征,进一步提高人工智能识别虚假视频的成功率。
(三)语音处理与识别
人工智能技术的进步推动了语音处理与识别的快速发展,使得语音处理与识别成为人工智能应用最广泛的领域之一。语音处理与识别技术与人工智能结合,不仅能够实现机器的语音合成、对语音的自动识别和发音人的自动辨识,还可以实现各种语句的自动识别甚至语言的自动理解,助推人机语音交互应答系统的诞生,并有望将脑信号直接转换为语音,进一步推动人机智能交互技术的进步。
1.美国哥伦比亚大学和德国不来梅大学等尝试利用人工智能破译大脑语言信号
2019年1月,美国哥伦比亚大学和德国不来梅大学(Universität Bremen)等组成的科研团队,尝试利用人工智能破译大脑语言信号。研究人员结合深度学习和语音合成技术,使用大脑数据训练人工智能系统,可以将大脑活动数据转换成语音。研究人员在受试者大声朗读、默念或听录音时监控大脑活动并采集数据,再把收集到的大脑信号转换成人类能够理解的单词和简单句,准确率为40%~80%。
2.日本东芝开发出可将语音转换成简洁文字的技术
2019年3月,日本东芝(Toshiba)开发出的新技术可利用人工智能,立即将会议及演讲的语音转换成易于阅读的文字,并通过字幕显示出来。相较以往的语音转换技术而言,该技术除了能识别话语中的停顿等,还能通过预测接下来出现的词语,将口语中无意义的词语删除,将语音转换成简洁的文字。日本东芝表示,该技术将帮助听觉障碍人士更好地获得信息。
3.美国加州大学旧金山分校开发出可将人脑活动转换为语音的新技术
2019年4月,美国加州大学旧金山分校(University of California,San Francisco)的研究人员开发出可将人脑活动转换为语音的新技术。研究人员研发出一套人类语音合成系统,该系统通过解码与人类下颌、喉头、嘴唇和舌头动作相关的脑信号,合成受试者想要表达的语音。研究人员在语音合成系统中设计了一种神经解码器,该解码器利用人类皮层活动中编码的运动学和声音表征合成语音,首先将神经信号转换成声道咬合部位的运动,再将声道咬合部位的运动转换成合成语音,大大降低了合成语音的失真率。目前该技术每分钟最多可转换 10 个单词,远低于普通人每分钟150字的正常说话速度。研究人员表示,他们将通过收集更大的数据集和开发基础计算方法进一步改善语音合成系统。
4.微软和浙江大学联合推出新型高速语音合成模型FastSpeech
2019年6月,微软和浙江大学联合推出一种利用神经网络技术的新型高速语音合成模型FastSpeech,大大提高了语音合成效率。传统的基于神经网络的端到端文本语音转换模型,通常首先从文本中生成梅尔频谱(Mel-Spectrogram),然后使用波网(WaveNet)等声码器从梅尔频谱中合成语音,但其存在推理速度较慢、合成语音不稳健、缺乏可控性等缺点。FastSpeech属于前馈网络模型,可将梅尔频谱的生成速度提高近270倍,几乎完全消除了合成语音中重复吐词和漏词问题,而且可以平滑地调整语音速度和控制停顿,以部分提升韵律。
5.加拿大皇后大学开发出语音识别人工智能工具
2019年7月,加拿大皇后大学(Queen’s University)开发出深度神经网络架构UtterldNet,UtterldNet可利用短语音片段识别说话者身份。研究人员使用语音数据集对UtterldNet进行训练和测试,使其能够快速识别短语音片段中的特征。该人工智能工具能够凭借1秒甚至更短的语音片段判断说话者身份,且性能稳定,为语音识别技术的深入探索铺平了道路。