中国修复重建外科杂志
    主页 > 期刊导读 >

基于深度学习的三维物体重建研究

机器学习主要包括:无监督学习[1]、监督学习[2]和半监督学习[3]。以有监督学习方法为例,机器学习是在预先定义好的可能性空间中,通过反馈信号的指导找到输入数据之间的有用表示,但往往层与层之间是不连续的。而,深度学习方法可以在连续的层中进行有效学习,通过连续的过滤,得到越来越有意义的数据表示,对结果的影响就会越高。基于深度学习的方法在语音识别、语音合成、自然语言处理、图像分类等多个领域均取得了较好发展。

深度学习[4]方法已经成为人工智能的热潮,一方面,深度学习可以在海量数据中学习到一种非线性的网络结构,可以从数据集中得到特征之间的相关性。另一方面可以在不同数据之间学习到统一的数据表征,从而可以有效提升数据模型的性能。深度学习的方法已经成为当下各行各业最热门的研究之一。

1 深度学习方法的发展阶段

(1)1982年,Hopfield神经网络被物理学家约翰霍普菲尔德所发明,该网络是结合了存储系统和二元系统,是一种循环神经网络。是用来模拟人类的记忆,通过激活函数的不同,输出连续性和离散型,分别用于优化计算和联想记忆。

(2)1986年,杰佛里辛顿提出了一种多层感知机反向传播算法,即:BP神经网络算法,该算法在神经网络正向传播的基础上,增加了误差的反向传播过程P。该算法解决了非线性的分类问题,引发了人类的广泛关注。

(3)2006年,鲁斯兰萨拉赫丁诺夫正式提出了深度学习的概念,在《Science》上发表的一篇文章中详细解释了“梯度消失”的问题,通过无监督学习的方法进行逐层训练。

(4)2012年,在ImageNet图像识别大赛中,AlexNet一举多得当年的图像识别冠军,采用ReLU激活函数,在很大程度上解决了梯度消失的问题。

(5)2017年,AlphaGo横空出世,采用的是一种深度强化学习技术,这一年,是深度学技术发展最为迅速的一年。随着深度学习技术和互联网技术的不断发展,深度学习方法已经在互联网金融、医学医疗、无人驾驶等多个领域都取得了迅猛进展。

2 目前常见的深度学习模型

2.1 卷积神经网络

卷积神经网络(convolutional neural network,CNN)[5]是一种多层神经网络,主要由卷积层、池化层、全连接层等组成。CNN可以将低层次的数据特征转化为更高层次的精细特征,卷积层和池化层通过配合的方式,从而可以组合成多个卷积组,逐层对数据进行特征的提取,最后通过若干个全连接层,从而完成数据分类。卷积层是通过局部感受野而设计的,池化层的目的是降低数据的维度。卷积网络通过一系列方法,将庞大的数据图像识别问题进行不断降低维度,最后使得模型可以进行训练。CNN非常适合处理图像数据,对图像的平移、缩放、倾斜等变形都有高度不变性。经典的Alexnet网络结构如图1所示。

图1 AlexNet网络结构图

2.2 生成式对抗网络

生成式对抗网络(Generative Adversarial Networks,GAN)[6]由生成器网络和判别器网络组成,生成器可以捕捉真实数据样本的潜在分布,并且可以生成新的样本;判别器是一个二分类器,它可以判别输入的是真实样本,或者是生成器生成的样本,其中,生成器和判别器是一个极大极小的博弈过程,优化的目标是达到纳什平衡。训练的时候,两者可以相互竞争、相互提升。生成式对抗网络结构图如图2所示。

图2 GAN网络结构图

2.3 循环神经网络

循环神经网络(Recurrent Neural Networks,RNN)[7]是一种处理序列数据的神经网络,和其他神经网络不同的是,RNN更擅长处理序列之间的信息,即认准了输入前后之间的关系。经典的RNN变形网络有长短期记忆神经网络和门控递归单元。典型的循环神经网络变体有长短记忆网络和门控单元。

3 常见的深度学习方法应用

3.1 图像识别

图像识别是计算机视觉领域中最基本的应用之一。通过对图像进行分类,可以知晓模型对图像信息特征提取的能力,常见的优秀图像分类模型有:VGGNet、GoogleNet和ResNet等。

3.2 图像翻译

图像翻译指的是通过一幅图像到另一幅图像的转换。通过图像转换可以实现在给定输入图像的情况下,每个输出像素之间都是相互独立的。常见的图像翻译模型有:pix2pix,pix2pixHD,vid2vid等。Pix2pix原理图如图3所示。

图3 pix2pix原理图