2.2. 卷积神经网络(CNN)#

近年来由于深度学习的兴起，计算机视觉发展十分迅猛。我们在生活中也能看见一些计算机视觉的例子，比如自动驾驶、人脸识别、医疗影像诊断等。

卷积神经网络（Convolutional Neural Network, CNN），简而言之，是一种深度学习模型或类似于人工神经网络的多层感知器，是一种前馈神经网络，常用来分析视觉图像。对于CNN最早可以追溯到1986年的BP算法，由于多层神经网络训练时计算量极大，受制于当时的算力水平，相关的研究一直处于低谷。直到2006年，Hinton等在《科学》上发表文章，CNN才重新回到人们的视野并且开启了CNN在图像领域的大发展。2012年，ImageNet大赛上CNN夺冠，2014年，谷歌推出了20层的VGG模型。同年，DeepFace、DeepID模型横空出世，直接将LFW数据库上的人脸识别正确率提高到99.75%，已超越人类对于图像判断的平均水平。