2020年CVPR会议六大主题学习

科技2024-10-31 57

CVPR六大主题

图象识别、检测与分割生成模型与图像合成表征学习计算摄影迁移/小样本/半监督/无监督学习迁移学习小样本学习半监督学习无监督学习视觉与语言

在公众号的文章《28篇论文、6 大主题带你一览 CVPR 2020 研究趋势》中，将今年的CVPR会议文章分成了6大主题：图像识别，检测和分割；生成模型和图像合成；表征学习；计算摄影；迁移/小样本/半监督/无监督学习；视觉与语言。本人目前研一，刚接触计算机视觉，所以对文章中提出的六大主题进行一次简单的了解。

图象识别、检测与分割

这部分是平时最经常听说的部分了，大家应该都了解。

生成模型与图像合成

生成模型指在无监督学习中，利用训练集生成一个拥有相同分布情况的数据集。数据集中合成的数据可以促进机器学习。

生成模型的应用有生成新的医疗数据，生成新的面孔图像，改变图象昼夜模式、季节，对人脸进行自然老化和去老化。

生成模型的种类有显性密度模型和隐性密度模型。显性密度模型定义了明确的密度函数，隐性密度模型定义了直接生成数据的随机程序。因为显性密度模型明确定义密度函数，所以会在训练数据上最大化该函数的可能性。根据密度函数是否易于操作，又可以细分为可牵引密度函数和近似密度函数。可牵引密度函数可以有效捕捉数据分布，近似密度函数不能捕捉数据分布。可牵引密度模型的应用有Pixel RNN与Pixel CNN，变分编码器，生成对抗网络（GAN）。

参考资料：生成模型和生成对抗网络是何方神圣？计算机视觉的魔力

表征学习

表征学习做的工作就是学习如何学习，它能从数据集中提取有效特征、自动提取特征，将数据集转换成易于机器学习处理的形式。

表征学习可以分为有监督的和无监督的两种。有监督的表征学习有神经网络、多层感知器、（监督）字典学习。无监督的表征学习有独立成分分析、自动编码、矩阵分解、聚类、（无监督）字典学习。

和表征学习比较相近的一个概念是特征工程。两者的区别是表征学习借助算法让机器自动地学习有用的数据和其特征，特征工程是人为的处理数据。

参考资料：表征学习_百度百科表征学习Representation Learning？

计算摄影

计算摄影，也叫计算成像，主要研究如何突破传统摄影的限制，应用相应的算法去更生动捕捉、表示、呈现我们的现实世界。

参考资料：计算摄影：导论

迁移/小样本/半监督/无监督学习

迁移学习

迁移学习是将某个领域或任务上学习到的知识或模式应用到不同但相关的领域或问题中。它可以分为基于实例的迁移、基于特征的迁移、基于共享参数的迁移。

参考资料：迁移学习概述（Transfer Learning）

小样本学习

小样本学习，属于迁移学习。研究小样本学习的意义在于：因为深度学习需要大量数据，而在实际生活中样本都很小，只能进行小样本学习。

小样本学习可以分为基于Finetune的小样本学习，基于metric的小样本学习（如孪生网络、匹配网络、原型网络）、基于graph neural network的小样本学习和基于元学习（meta learning）的小样本学习（如递归记忆模型、优化器学习、无关自适应）。

参考资料：小样本学习(one/few-shot learning)

半监督学习

半监督学习是监督学习与无监督学习相结合的一种学习方法，监督学习中的样本是被标记过的，无监督学习中的样本未被标记，即同时使用标记过的与为标记过的样本数据。可以在有标记样本中加入无标记样本，也可以在无标记样本中加入有标记样本，一般是前者。

半监督学习的意义在于：有标记的样本难以获取，并且数量少，无标记的样本简单，廉价，所以将两种样本合在一起进行训练。

半监督学习可以分成（纯）半监督学习和直推式学习。两者的区别在于训练数据中的未标记样本是否是待测数据，前者不是，后者是。

半监督学习的方法有：self-training（自训练算法）、generative models（生成模型）、SVMs（半监督支持向量机）、graph-based methods（图论方法）、multiview learning（多视角算法）

参考资料：半监督学习半监督学习(一)

无监督学习

无监督学习不是告诉计算机怎么做，而是让机器自己去学习怎样做。是否有监督（supervised），就看输入数据是否有标签（label）。输入数据有标签，则为有监督学习，没标签则为无监督学习。

无监督学习的常用算法有：主成分分析法（PAC）、等距离映射方法、局部现性嵌入方法、拉普拉斯特征映射方法、黑塞局部线性嵌入方法、局部切空间排列方法。

无监督可以分成确定型无监督学习和概率型无监督学习。确定型无监督学习主要使用自编码、稀疏自编码、降噪自编码等算法，概率型无监督学习主要使用限制波尔茨曼机。

无监督学习的应用主要有聚类、数据集变换。

参考资料：无监督学习_百度百科

视觉与语言

这是计算机视觉与自然语言处理的交叉领域，不仅要理解视觉，也要知道如何对自然语言建模，既可以从视觉生成文字，也可以从文字到视觉。

参考资料： VALSE2017系列之七：视觉与语言领域年度进展概述

Processed: 0.016, SQL: 8