1.3 OpenCV深度学习模块_OpenCV深度学习应用与性能优化实践-QQ阅读男频都市网

上QQ阅读APP看书，第一时间看更新

1.3　OpenCV深度学习模块

深度学习模块是OpenCV为支持基于深度学习的计算机视觉应用所加入的新特性。OpenCV DNN模块于OpenCV 3.1版本开始出现在opencv_contrib库中，从3.3版本开始被纳入OpenCV核心库。本节主要讲解OpenCV深度学习模块的实现原理和主要特性，通过这些内容，读者可以对OpenCV DNN有一个总体了解，并对OpenCV深度学习模块的应用代码有一个初步的印象。

作为计算机视觉领域的“标准库”，OpenCV为用户提供深度学习的支持是题中应有之义。OpenCV选择重新实现一个深度学习框架而不是直接调用现有的各种框架（如TensorFlow、Caffe等），有如下几点原因。

轻量：OpenCV的深度学习模块只实现了模型推理功能，这使得相关代码非常精简，加速了安装和编译过程。

最少的外部依赖：重新实现一遍深度学习框架使得对外部依赖减到最小，大大方便了深度学习应用的部署。

方便集成：①如果原来的应用是基于OpenCV开发的，通过深度学习模块可以非常方便地加入对神经网络推理的支持；②如果网络模型来自多个框架，如一个来自TensorFlow，一个来自Caffe，则深度学习模块可以方便整合网络运算结果。

通用性：①提供统一的接口来操作网络模型；②内部所做的优化和加速对所有网络模型格式都适用；③支持多种设备和操作系统。

1.3.1　主要特性

OpenCV深度学习模块只提供网络推理功能，不支持网络训练。像所有的推理框架一样，加载和运行网络模型是基本的功能。深度学习模块支持TensorFlow、Caffe、Torch、DarkNet、ONNX和OpenVINO格式的网络模型，用户无须考虑原格式的差异。在加载过程中，各种格式的模型被转换成统一的内部网络结构。深度学习模块支持所有的基本网络层类型和子结构，包括AbsVal、AveragePooling、BatchNormalization、Concatenation、Convolution(with DILATION)、Crop、DetectionOutput、Dropout、Eltwise、Flatten、FullConvolution、FullyConnected、LRN、LSTM、MaxPooling、MaxUnpooling、MVN、NormalizeBBox、Padding、Permute、Power、PReLU、PriorBox、Relu、RNN、Scale、Shift、Sigmoid、Slice、Softmax、Split和Tanh。

如果需要的层类型不在这个支持列表之内，则可以通过脚注中的申请链接参见https://github.com/opencv/opencv/issues/new。来请求新的层类型的支持，OpenCV的开发者们有可能会在将来加入对该层类型的支持。读者也可以自己动手实现新的层类型，并把代码反馈回社区，参与到深度学习模块的开发中来。我们会在第2章详细讲解如何实现一个新的层类型。除了实现基本的层类型，支持常见的网络架构也很重要，经过严格测试，深度学习模块支持的网络架构如表1-3所示。

表1-3　深度学习模块支持的网络架构

注2：参见https://pjreddie.com/darknet/imagenet。

注3：参见https://github.com/CMU-Perceptual-Computing-Lab/openpose。

注4：参见https://github.com/cmusatyalab/openface。

[1] 参见https://github.com/opencv/opencv/issues/new。

1.3.2　OpenCV DNN图像分类举例（Python）

C++和Python是OpenCV应用开发的主要语言，1.1.2节介绍了一个基于C++语言的深度学习应用，本节继续介绍一个基于Python的图像分类示例。

首先引入必要的Python库：

import numpy as np # 引入numpy库
import cv2 as cv # 引入OpenCV库，深度学习模块包含在其中

读入类别文件：

with open('synset_words.txt') as f:
    classes=[x[x.find(' ') + 1:] for x in f]

读入待分类的图片：

image=cv.imread('space_shuttle.jpg')

调用深度学习模块的blobFromImage方法将图片对象转换成网络模型的输入张量（tensor）。该张量的大小是224×224，参数中的(104,117,123)表示需要从输入张量减掉的均值，它是从训练网络模型时用到的数据集计算出来的，这里直接使用即可。第二个参数“1”表示将OpenCV的默认通道顺序BGR转换成网络模型要求的RGB通道顺序。

input=cv.dnn.blobFromImage(image， 1, (224, 224), (104, 117, 123))

下面来加载Caffe网络模型。注意，相关的模型参数和配置文件可在http://dl.caffe.berkeleyvision.org/bvlc_googlenet.caffemodel和https://github.com/opencv/opencv_extra/blob/4.1.0/testdata/dnn/bvlc_googlenet.prototxt下载。

net=cv.dnn.readNetFromCaffe('bvlc_googlenet.prototxt',
'bvlc_googlenet.caffemodel')

设置网络模型输入：

net.setInput(input)

执行网络推理并得到输出结果：

out=net.forward()

从网络输出中获取最大的5个可能种类的索引值并输出类别名称和概率值：

indexes=np.argsort(out[0])[-5:]
for i in reversed(indexes):
　print ('class:', classes[i], ' probability:', out[0][i])

通过这个例子，我们可以看到一个基于深度学习模型的分类应用并不复杂，主要分3部分：模型导入、网络执行和结果解析。