论文阅读 (十三)：Revisiting Multiple Instance Neural Networks (2016 mi-Net & MI-Net)

科技2025-02-02 49

文章目录

引入1 多示例神经网络1.1 mi-Net：Instance-Space MIL Algorithm1.2 MI-Net: A new Embedded-Space MIL Algorithm1.3 MI-Net with Deep Supervision1.4 MI-Net with Residual Connections1.5 MIL汇聚方法1.6 训练损失

引入

论文地址：https://arxiv.org/pdf/1610.02501.pdf 主要内容或优势： 1）以往的多示例神经网络聚焦于评估实例标签，本文则是习得包的表示 (bag representations)； 2）预测和训练快的飞起。

1 多示例神经网络

本文符号系统如下：

符号含义

\{ X_1, X_2, \cdots, X_N \}

包的集合

X_i = \{ x_{i1}, x_{i2}, \cdots, x_{im_i} \}

包

x_{ij} \in \mathbb{R}^{d \times 1}

实例

N

包数量

m_i

包大小

Y_i \in \{ 0, 1 \}

包标签

y_{ij} \in \{ 0, 1 \}

实例标签

包标签中， $1$ 代表正包， $0$ 代表负包，且包与实例的标签满足标准MI假设：

$Y_i = \begin{cases} 0, \qquad \forall y_{ij} = 0;\\ 1, \qquad \sum_{j = 1}^{m_i} y_{ij} \geq 1. \end{cases} \tag{1*}$

如引入所述，多示例神经网络 (MILL)中共两种策略，具体为： 1）习得实例的标签，即将实例为正的概率作为隐藏层 (placing instance probabilities of being positive as a hidden layer in the network) $^\text{[1, 2, 3]}$ ； 2）本文提出：习得包表示，直接对包分类。考虑将单个包 $X_i$ 传递给MINN的情况： $L$ 层，每一层均包含一个激活函数 $H^{\ell}(\cdot)$ ，其中 $\ell$ 表示当前层数；令 $x_{ij}^{\ell}$ 表示实例 $x_{ij}$ 第 $\ell^{\text{th}}$ 层的输出。

1.1 mi-Net：Instance-Space MIL Algorithm

传统MINN中 $^\text{[1, 2, 3]}$ ，即mi-Net，大致过程如图1。图1中。使用四个连接层，且使用ReLU激活函数。最终将获得第 $L - 2$ 层的实例特征，用 $x_{ij}^{L - 2}$ 表示，相对应的概率输出为 $p_{ij}^{L - 1}$ ，并归一化至 $[0, 1]$ ；包的概率输出记为 $P^L (X_i)$ 。为解决MIL中实例不带标签这一问题，在网络的训练阶段，将其标签看作是是潜在变量，最终设定某种方法汇总实例的输出概率为包的输出概率。 mi-Net可以格式表示为：

$\begin{cases} x_{ij}^{\ell} = H^{\ell} (x_{ij}^{\ell - 1});\\ P_i^L = M^L (p_{ij \mid j = 1 \ldots m_i}^{L - 1}). \end{cases} \tag{1}$

图1：带有四个全连接层的mi-Net，且每个连接层的输出结点个数依次为256、128、64以及1。最后一层的输入为实例标签概率，输出则为包标签概率 ( 图片源自原论文)。

1.2 MI-Net: A new Embedded-Space MIL Algorithm

无需依赖实例的输出概率，而是直接习得包的表示，如图2，归纳如下：

$\begin{cases} x_{ij}^{\ell} = H^{\ell} (x_{ij}^{\ell - 1});\\ X_i^{\ell} = M^{\ell} (x_{ij \mid j = 1 \ldots m_i}^{\ell - 1}). \end{cases} \tag{2}$

图2：带有三个个全连接层和一个MIL汇集层的MI-Net，且每个连接层的输出结点个数依次为256、128以及64 ( 图片源自原论文)。

1.3 MI-Net with Deep Supervision

受Deeply-Supervised Nets (DSN) $^\text{[4]}$ 启发，将deep supervisions添加至MI-Net中，如图3。规则化如下：

$\begin{cases} x_{ij}^{\ell} = H^{\ell} (x_{ij}^{\ell - 1});\\ X_i^{\ell, k} = M^{\ell} (x_{ij \mid j = 1 \ldots m_i}^k), k \in \{ 1, 2, 3 \}. \end{cases} \tag{3}$ 其中 $k$ 表示将从所有不同的实例特征中习得包特征。

图3：带有三个全连接层的mi-Net，且每个连接层的输出结点个数依次为256、128以及64。每一个连接层均对应一个汇聚池 ( 图片源自原论文)。

1.4 MI-Net with Residual Connections

规则化如下：

$\left\{\begin{array}{l} x_{i j}^{\ell}=H^{\ell}\left(x_{i j}^{\ell-1}\right); \\ X_{i}^{1}=M^{\ell}\left(x_{i j \mid j=1 \ldots m_{i}}^{1}\right); \\ X_{i}^{\ell}=M^{\ell}\left(x_{i j \mid j=1 \ldots m_{i}}^{\ell}\right)+X^{\ell-1}, \ell>1. \end{array}\right. \tag{4}$

1.5 MIL汇聚方法

本文使用三种汇聚方法，包括最大、平均以及log-sum-exp (LSE) $^\text{[5]}$ 。LSE为最大、平均汇聚的平滑版本。具体如下：

$\left\{\begin{array}{ll} \max : & M^{\ell}\left(x_{i j \mid j=1 \ldots m_{i}}^{\ell-1}\right)=\max _{j} x_{i j}^{\ell-1}; \\ \operatorname{mean}: & M^{\ell}\left(x_{i j \mid j=1 \ldots m_{i}}^{\ell-1}\right)=\frac{1}{m_{i}} \sum_{j=1}^{m_{i}} x_{i j}^{\ell-1}; \\ \mathrm{LSE}: & M^{\ell}\left(x_{i j \mid j=1 \ldots m_{i}}^{\ell-1}\right)=r^{-1} \log \left[\frac{1}{m_{i}} \sum_{j=1}^{m_{i}} \exp \left(r \cdot x_{i j}^{\ell-1}\right)\right]. \end{array}\right. \tag{5}$ 其中 $r$ 是超参数，其越大越接近最大；反正解决平均。

1.6 训练损失

训练损失为每个包得分 $S_i$ 的累加，其中每个包得分的计算如下：

$\text{Loss} (S_i, Y_i) = - \{ (1 - Y_i) \log (1 - S_i) + Y_i \log S_i \}. \tag{6}$ 网络的训练将使用随机梯度下降的标准反馈。

[1]: J. Ramon and L. De Raedt, “Multi instance neural networks,” in Proceedings of the ICML-2000 workshop on attribute-value and relational learning, 2000, pp. 53–60. [2]: Z.-H. Zhou and M.-L. Zhang, “Neural networks for multi-instance learning,” in Proceedings of the International Conference on Intelligent Information Technology, Beijing, China, 2002, pp. 455–459. [3]: J. Wu, Y. Yu, C. Huang, and K. Yu, “Deep multiple instance learning for image classification and auto-annotation,” in CVPR, 2015, pp. 3460–3469. [4]: C. Y. Lee, S. Xie, P. Gallagher, Z. Zhang, and Z. Tu, “Deeply-Supervised Nets,” in AISTATS, 2015, pp. 562–570. [5]: S. Boyd and L. Vandenberghe, Convex optimization. Cambridge university press, 2004.

Processed: 0.013, SQL: 9

论文阅读 (十三)：Revisiting Multiple Instance Neural Networks (2016 mi-Net &amp; MI-Net)