车辆的跨模态语义图像生成囧囧囧

    科技2024-11-21  17

    目录

    掩膜 mask定义用法 细粒度图像分类(fine-grained image classification)双线性CNN双线性注意力池化方法(BAP) BN(批量标准化)和IN(实例标准化)BNIN 激活函数Pytorch:autograd及Variable

    掩膜 mask

    定义

    掩膜,通俗地讲就是一个遮挡板,喷漆,或者雕刻或者喷漆的时候,会用一个特定形状的遮板放在被修改的材料上,按照挡板的形状就可以很贴合地得到最后你想要的图案。掩膜就是这么个东西。

    binary Mask 叫做二元掩膜,什么意思呢。因为在图像处理的时候,计算机识别图像是将图像当作一个矩阵,你要把一个遮挡板放在一个图像上进行操作,图像矩阵和另外一个“遮挡板”矩阵进行乘积运算,从而得到你想要的结果。举例来说:

    图中可以看出,经过掩膜处理之后,其他的部分都被“掩膜”中的0值过滤掉了,剩余的部分就是想要的部分。 (一般机器学习矩阵之间都用点乘)

    用法

    提取感兴趣区:用预先制作的感兴趣区掩膜与待处理图像相乘,得到感兴趣区图像。感兴趣区内图像值保持不变,而区外图像值都为0;屏蔽作用:用掩膜对图像上某些区域作屏蔽,使其不参加处理或不参加处理参数的计算,或仅对屏蔽区作处理或统计;结构特征提取:用相似性变量或图像匹配方法检测和提取图像中与掩膜相似的结构特征;特殊形状图像的制作。

    细粒度图像分类(fine-grained image classification)

    相比(通用)图像分类,细粒度图像分类需要判断的图像类别更加精细。比如,我们需要判断该目标具体是哪一种鸟、哪一款的车、或哪一个型号的飞机。通常,这些子类之间的差异十分微小。比如,波音737-300和波音737-400的外观可见的区别只是窗户的个数不同。因此,细粒度图像分类是比(通用)图像分类更具有挑战性的任务。

    细粒度图像分类的经典做法是先定位出目标的不同部位,例如鸟的头、脚、翅膀等,之后分别对这些部位提取特征,最后融合这些特征进行分类。这类方法的准确率较高,但这需要对数据集人工标注部位信息。目前细粒度分类的一大研究趋势是不借助额外监督信息,只利用图像标记进行学习,有以下几种方法。

    双线性CNN

    模型:包含两个特征提取器,其输出经过外积相乘,然后池化,最后获得图片描述

    双线性注意力池化方法(BAP)

    全局池化:把A×B的矩阵pooling成一个数字。因为每个part feature maps都有N个“A×B的矩阵”,所以全局池化池化并且拼接以后变成了一个N×M的矩阵。

    BN(批量标准化)和IN(实例标准化)

    BN

    Why BN? 我们知道网络一旦train起来,那么参数就要发生更新,除了输入层的数据外(因为输入层数据,我们已经人为的为每个样本归一化),后面网络每一层的输入数据分布是一直在发生变化的,因为在训练的时候,前面层训练参数的更新将导致后面层输入数据分布的变化。以网络第二层为例:网络的第二层输入,是由第一层的参数和input计算得到的,而第一层的参数在整个训练过程中一直在变化,因此必然会引起后面每一层输入数据分布的改变。我们把网络中间层在训练过程中,数据分布的改变称之为:“Internal Covariate Shift”。BN的提出,就是要解决在训练过程中,中间层数据分布发生改变的情况。

    How BN? 不仅仅对输入层做标准化处理,还要对每一中间层的输入(激活函数前) 做标准化处理,使得输出服从均值为 0,方差为 1 的正态分布,从而避免内部协变量偏移的问题。之所以称之为 批 标准化:是因为在训练期间,我们仅通过计算 当前层一小批数据 的均值和方差来标准化每一层的输入。

    IN

    BN 和 IN 其实本质上是同一个东西,只是 IN 是作用于单张图片(对单个图片的所有像素求均值和标准差),但是 BN 作用于一个 batch(对一个batch里所有的图片的所有像素求均值和标准差)。

    激活函数

    各种激活函数的介绍

    GLU(Gated Liner Unit) 表达式为:f(X) = (X * W + b) * O(X * V + c) 组成结构:Relu激活单元:(X * W + b),加上一个Sigmoid激活单元:O(X * V + c),构成的gate unit,就构成了GLU单元。

    Pytorch:autograd及Variable

    Pytorch的Variable相当于一个Wraper,如果你想将数据传送到Pytorch构建的图中,就需要先将数据用Variable进行包装,包装后的Variable有三个attribute:data,creater,grad:(如下图所示) 其中data就是我们被包裹起来的数据,creator是用来记录通过何种计算得到当前的variable,grad则是在进行反向传播的时候用来记录数据的梯度的。

    Processed: 0.011, SQL: 8