【论文翻译】Deep Network-Based Frame Extrapolation With Reference Frame Alignment

科技2022-08-03 113

Deep Network-Based Frame Extrapolation With Reference Frame Alignment

Shuai Huo, Dong Liu, Senior Member, IEEE, Bin Li, Member, IEEE, Siwei Ma, Member, IEEE, Feng Wu, Fellow, IEEE, and Wen Gao, Fellow, IEEE

摘要帧外推法是根据过去（参考）帧预测未来帧的方法，在计算机视觉研究中已经进行了深入研究，并且在视频编码方面具有巨大潜力。最近，许多研究致力于将深层网络用于帧外推，这取得了一定的成功。然而，由于自然视频中复杂且多样的运动模式，仍然难以直接从参考帧中外推具有高保真度的帧。为了解决这个问题，我们引入参考帧对齐作为基于深度网络的帧外推的关键技术。我们建议对齐参考框架，例如使用基于块的运动估计和运动补偿，然后通过经过训练的深度网络从对齐的帧中进行推断。由于对齐是一个预处理步骤，有效地减少了网络输入的多样性，因此我们观察到网络更易于训练，并且推断出的帧质量更高。我们使用高效率视频编码（HEVC）和通用视频编码（VVC）中用于帧间预测的外推帧验证了视频编码中提出的技术。我们研究了不同的方案，包括是否在目标帧和参考帧之间对齐以及是否对外推帧执行运动估计。我们进行了全面的实验，以研究所提出的方法的效率并比较不同的方案。实验结果表明，与HEVC相比，在低延迟P和低延迟B配置下，我们的建议分别使Y分量的BD率平均降低5.3％和2.8％。我们的建议比没有参考帧对齐的帧外推要好得多。

索引项—深度网络，帧外推，高效视频编码（HEVC），帧间预测，运动补偿，运动估计，多功能视频编码（VVC）。

I.介绍减少视频帧内的内容冗余是有效视频编码的关键。传统上，基于块的运动估计（ME）和运动补偿（MC）用于执行帧间预测，以减少冗余。基于块的平移是自然视频中非常复杂运动的一种很好的近似方法，只要块足够小，时间间隔足够短。但是，如果块太小，则信号运动矢量（MVs）将过多，并且会产生过多开销。因此，如何以紧凑的方式表示复杂的运动是进一步提高视频编码效率的重要问题。最近，仿射运动模型已经被研究，它取得了一定的成功，并且优于平移模型[1]。但是，仍然不足以表征更复杂的运动。

帧间预测不仅用于视频编码，而且还用于计算机视觉研究中的其他任务。通常，帧间预测有两种类型：帧插值和帧外推。外推被认为更加困难，因为它要预测未来。最近，针对帧外推进行了许多研究，试图从过去称为参考帧的帧中预测未来帧[2]，[3]。特别是，这些研究遵循了深度学习范式，并训练了一个深度网络来执行帧外推。

当我们将两者视为帧间预测方法时，我们可以将基于块的ME和MC与基于深度网络的帧外推进行比较。前者仅表征两个帧之间的运动，而后者则扩展到多个帧。因此，后者具有更好地表征自然视频中高阶运动的潜力。这种比较激发了我们将帧外推法用作视频编码的工具。最近，Lin等。 [4]做了这样的审判。他们训练了生成对抗网络的拉普拉斯金字塔（LAPGAN），该金字塔最初是为帧外推而设计的[2]，[5]。他们通过使用外推帧作为ME和MC的附加参考帧，将经过训练的LAPGAN集成到视频编码中。他们报告说，它比HEVC锚实现了编码增益。

我们要进一步询问是否可以将基于块的ME和MC以及帧外推这两种策略结合在一起。在计算机视觉研究中，传统的帧外推方法是非指导性的：将参考帧简单地转储到网络中，希望网络可以处理所有内容。由于自然视频中的运动模式非常多样化，因此以高保真度推断帧似乎是一项艰巨的任务。另一方面，基于块的ME和MC得到了很好的指导：它们仅处理两个帧之间的假定平移运动，而别无其他。因此，我们想问一下是否可以将帧外推更改为指导性问题。

在本文中，我们提出了一个解决该问题的关键思想。我们的思想是利用基于块的ME / MC对齐参考帧，然后通过训练有素的深度网络从已经对齐的帧中进行推断。通过对齐，我们有效地减少了网络输入的多样性，因为有效地消除了参考帧之间的块级转换，但是这些帧之间仍然存在微妙的运动，这与原始帧中的高阶运动相对应。减少多样性将减轻网络训练的难度，因为预计网络将仅处理微妙的运动。正如我们所观察到的，这种设计确实提高了网络性能。实际上，许多深度学习技术已经尝试减少网络输入之前或网络内部的多样性，例如许多不同的规范化方法[6] – [9]和残差学习[10]，[11]。据我们所知，我们是第一个提出参考帧对齐作为基于深度网络的帧外推的分集减少技术的人。

基于提出的关键思想，我们研究了视频编码的帧外推法，本文提出的技术贡献包括：

我们提出了基于深度网络的帧外推的参考帧对齐，这是减少分集的新技术。我们对齐参考帧以减少过去帧之间的平移，并使网络专注于学习高阶运动。我们观察到所提出的技术减少了训练难度，也提高了准确性。我们研究了将外推帧应用于视频编码的不同方案。我们研究是否将目标帧与参考帧对齐，以及是否在外推帧上执行基于块的ME / MC。我们在定性和定量上比较了不同的方案。我们将提出的方案整合到HEVC参考软件中，并进行了一系列综合实验以评估提出的方法的有效性。我们不仅验证了帧对齐对于帧外推的好处，而且将我们的建议与仿射运动模型进行了比较，并观察了它们在表征复杂运动以进行视频编码时的不同能力。我们还将所提出的技术集成到VVC参考软件中，并报告结果和分析。

本文的其余部分安排如下。第二节简要回顾了相关工作。第三节详细介绍了提出的对准方法和网络。在第四部分中，我们讨论了考虑编码和外推特性的方案的实现细节。第五节介绍了实验结果，然后在第六节中给出了结论。

II.相关工作在本节中，我们将在两个类别中回顾与我们的研究相关的先前工作。首先是最近流行的基于深度网络的帧间预测技术。第二个是关于使用神经网络进行帧间预测，这是视频编码中一个非常有趣的新兴话题。

A.深度网络用于帧间预测近来，通过使用深度网络解决了帧间预测的任务，该任务包括在现有帧之间生成（内插）和后续帧之间（外推），这取得了显着的进展。主要有三类方法。

第一种是使用深度网络直接在帧中生成像素[2]，[12] – [15]。代表性的研究包括：Mathieu等。 [2]采用多尺度网络以粗略的精细方式预测未来的视频帧，添加了新的损失函数并提出了新的学习策略，以应对从标准均方误差（MSE）损失函数中获得的模糊预测。但是，有时由于从头开始产生幻象，这些方法仍然遭受模糊的困扰。

另一种流行的方法是通过网络学习视频中的像素级运动轨迹。借助运动场预测从已知帧中复制像素可以减轻预测的模糊问题[3]，[16] – [18]。例如，Liu等。 [3]提出了深体素流来采样时空视频量以产生内插和外插结果，并利用多尺度结构进一步提高了帧预测的准确性。这些方法可以减轻模糊的问题，但是网络难以训练，并且有时由于不精确的中间流而遭受明显的伪像甚至压缩的细节的困扰。

此外，Niklaus等人提出了一种特殊的帧插值方法。 [19] – [21]，其中采用一组学习的一维空间自适应核与卷积进行卷积，卷积的结果是在每个像素位置生成的像素。这种方法不太适合帧外推，因为预测帧与先前帧之间的时间距离可能很大，以至于目标对象不在补丁大小范围内。

所有以前的帧外推方法都直接输入同位图像而没有先验运动信息，并且没有有效的措施来解决运动太大以至于超出了网络的接收范围的问题。在本文中，我们将输入图片对齐以预先消除较大的运动，并使网络学习到差异。输入的处理和学习方式的变化使我们的方法与以前的方法截然不同。

B.基于CNN的视频编码帧间预测帧间预测作为消除时间冗余的核心，一直在视频编码框架中发挥关键作用。随着深度学习的发展，出现了几种基于深度网络的视频编码间预测方法[22] – [25]。通常，Huo等人。 [22]提出了一种利用HEVC中的相邻空间信息进行基于CNN的运动补偿的优化方法，该方法可以将预测信号向原始信号方向精化，从而生成更准确的预测块。在[26]中，Zhao等。提出了在MC中使用CNN的增强型双向预测，其中根据视频中的内容，使用经过训练的CNN来增强传统的平均双向预测。所有这些研究都在增强传统的帧间预测，而不是解决表征复杂运动的本质问题。

已经进行了一些初步的尝试，以将帧间预测应用于视频编码。传统方法[27]和深层方法都考虑了帧速率上转换（FRUC）或帧插值。例如，赵等。 [24]直接使用现有的自适应可分离卷积模型[20]从同位块生成的插值块作为HEVC中新的CTU级双向帧间预测，而无需重新训练。 Lin等。 [4]尝试将帧外推应用于视频编码，并提出将来自先前位于同一位置的帧的基于GAN的图像外推作为HEVC中的参考帧。同样，劳德等。 [28]使用深度视频预测网络PredNet [15]生成的外推图片作为HEVC中的参考帧。这些尝试是在计算机视觉研究中将帧预测直接用于视频编码，而很少探索视频编码的特性。

III.参考框架对齐的框架外推在本节中，我们讨论如何通过参考帧对齐来完成我们提出的帧外推。我们首先描述拟议的对准方案的细节。此外，我们概述了推断的网络结构，然后介绍了准备训练数据的过程。

A. 拟议框架我们提出的框架如图1所示。对齐的目的是减少参考帧之间的差异，我们希望网络能够集中精力学习剩余的帧间差异，包括高阶运动，外观变化，噪音等等。目标框架的每个部分都应在每个参考框架中找到最相关的区域。因此，对齐在块级别进行。我们将目标框架均匀划分为多个块，然后分别针对这些块进行对齐。然后，我们通过训练好的深度网络从对齐的块进行推断，并将所有推断的块缝合在一起，以获得最终的推断帧。为简单起见，我们采用逐像素模板匹配来实现对齐。基于块的运动估计（ME）是一种有效的模板匹配工具，通常将两个块的像素之间的平均绝对误差作为评估相似性的标准。我们对分割块进行ME对齐。

具体地，对准分两个步骤进行。第一步是在时间t的目标帧I_t与最后一个参考帧I_t-1之间的对齐，第二步是参考帧I_t-1，I_t-2，…之间的对齐。对于第一步，有两种可能的方案。首先，我们可以在编码器端执行ME，以实现每个块在I_t-1和I_t之间的运动矢量。可以将运动向量发送到解码器侧。如图1中的方案1所示。其次，我们可以简单地将I_t-1中的并置块用作I_t的“对齐”块，从而省去了传输运动矢量的开销。这在图1中显示为方案2。

第一步之后，我们进行第二步以在参考帧之间对齐。第一步，我们在I_t-1中获得了一个与I_t中的块相对应的块（通过运动矢量或并置），然后使用I_t-1中的块在前一帧I_t-2中进行搜索，然后找到匹配的块。然后，我们在I_t-2中使用匹配块在下一个上一帧I_t-3中进行搜索，然后找到匹配块，依此类推。由于参考（重构的）帧在解码器侧可用，因此可以在编码器和解码器上相同地执行参考帧内的搜索，然后在I_t-1，I_t-2，…，…之间的运动矢量，不传送。逐帧搜索可以扩展到许多帧，但是出于计算时间的考虑，本文考虑了四个帧。请注意，四参考帧也是HEVC参考软件中的默认设置。为了降低计算复杂度，我们仅在参考帧之间执行整数像素ME，并且在HEVC参考软件（即TZSearch）中利用了快速ME算法。

B.网络结构我们设计的网络的结构如图1所示，它是一个完全卷积的网络，具有多尺度结构，残差学习和反卷积以进行放大的功能。多尺度结构的最大优势在于，每个级别都可以捕获以特定尺度呈现的运动，这有助于以从粗到精的方式生成帧。放大模块用于在相邻刻度之间达到相同的分辨率。对于扩展模块，我们采用训练好的反卷积层，并通过双线性插值对其进行初始化，以方便训练[29]。因为我们将目标框架与过去框架之间的学习差异公式化以进行外推，所以残差学习是实现目标的最合适，最有效的方法。由于在我们的任务中，从上一个比例尺放大的图片与当前比例尺的标签之间的大小相同，因此可以直接采用残差学习，而无需在每个比例尺中更改分辨率。同时，它加快了收敛速度，并使网络更易于训练。

假设Y是要在时间t根据先前帧{It-4，… ，It-1}中的四个输入块X = {X^t-4，… ，X^t-1}进行预测的块。网络中有多个标度，我们将每个标度中输入的大小（从小到大）标记为s1，…，s4。每个刻度尺具有下一个刻度尺的一半，即s_k = 1/2 s_k+1。然后让u_k朝着s_k的尺寸作上采样操作。令X_k，Y_k表示大小为s_k的X和Y的下采样版本，而G_k是学习预测X_k与Y_k - u_k（Y_k-1）之间差异的网络。我们通过以下方式递归定义做出预测Y_k的网络G’_k 多尺度网络从最低分辨率开始进行一系列预测，并使用大小为s_k的预测作为起点来进行大小为s_k+1的预测。我们反复放大并在下一个更精细的级别上添加学习到的残差，直到返回到全分辨率图像为止。特别是，网络仅将按比例缩小的版本X₁作为最小尺寸的输入。

除了没有非线性单位的最后一层之外，每个比例尺中的每一层都执行卷积，然后进行非线性映射。网络中的非线性映射是近年来被广泛采用的整流线性单元（ReLU）[30]。第j层F_j的输出可表示为其中W_j和B_j分别代表卷积滤波器内核和第j层的偏差，“ *”代表卷积运算。在每个比例的最后一个卷积层添加双曲正切（tanh），以确保输出残差值在（1，1）。

与在先前的工作[2]，[4]中最小化那些复杂的损失函数不同，在本文中，我们仅对所有尺度使用l1损失以简化训练。在我们的多尺度网络中要最小化的最终损失函数是 || · ||₁表示l1范数，λ_k表示最终损失的第k个标度的损失权重。

表I列出了详细的配置。与类似于我们网络的VC-LAPGAN [4]相比，我们进一步优化了多尺度网络并减少了参数数量。 C.网络输入在基于块的外推中，如果一个小物体从外部移入一个块，则网络很难预测该物体。为了缓解此问题，我们在先前的帧中使用较大的块来扩展感知范围。输入也显示在图1中。对齐的块由红点区域表示。然后，对齐框由参考帧中可用的像素填充，该像素由蓝点表示。该填充是为了为网络提供适当的边界条件和周围信息，因此，填充宽度由外推块的大小确定。在本文中，我们将外推块的大小设置为32或更大，并且填充宽度为块大小的一半，以便最终输入块的大小扩展为64或更大。

D.训练数据的生成我们将HEVC与现有的运动估计引擎一起使用，以生成对齐的训练数据。借助HEVC，我们还根据编码模式排除了时间相关性较弱的数据。我们从第5帧获取训练数据，以确保有四个重构帧进行外推。编码后，我们将每个帧分为32×32块，没有重叠。我们排除图像边界处的块以及帧内编码模式的面积大于一半的块。帧内预测表明时间相关性较弱，因此此类块对网络表征运动没有帮助。我们可以根据第III-A节中描述的过程生成对齐的数据。因为我们可以在生成训练数据时获得目标帧，所以我们像图1所示的方案1一样在目标帧和最后一个参考帧之间执行运动估计，以生成更准确的对齐数据。从原始视频序列中提取的目标块被视为网络训练的标签。考虑到亮度分量（Y）比色度分量（U和V）更重要，我们在这里仅提取亮度分量进行训练。

IV. 融入HEVC 在本节中，我们研究将建议的帧外推与参考帧对齐集成到HEVC中的问题，包括如何应用帧外推和为HEVC设计的对齐方案。

A.帧外推在HEVC中应用在HEVC中，通过对参考帧进行运动补偿来实现帧间预测，这表明了两种适用于外推的实用方案。第一种是用基于外推的预测来代替传统的MC，即将外推结果作为运动补偿预测信号，简称为MCP。第二个是在外推帧上执行ME和MC，即使用外推结果作为新的参考帧，称为REF。因此，下面我们实现并分析两种方案。

如果外推结果足够准确，则MCP方案对于视频编码会更加有效。选择基于外推的MC模式不仅可以减少其他编码模式，块划分，运动信息等的编码位，而且可以避免传统运动补偿的过程。由于每个局部区域可能会在不同的视频序列中支持外推或传统帧间预测，因此在提出的MCP方案中，我们选择大编码单位（CU）（即32×32或更大）级别的外推模式或其他帧间模式。

另一方面，自然视频非常复杂且不稳定，网络可能无法很好地预测整个块。 REF方案将是一个更好的选择，因为HEVC中的多参考帧机制允许从整个外推块预测CU，或者根据外推的精度自适应地将其拆分为较小的块。在这里，我们只需将外推结果作为新的参考帧插入到参考帧缓冲区中即可。特别是，我们将外推块的大小设置为与编码树单元（CTU）相同，即64×64。由于输入填充，网络输出块的大小是CTU的两倍，即128×128。将整个输出块放在相应CTU的位置，以便在ME和MC的过程中保持参考CTU与周围像素之间的边界连续性。

还值得注意的是，HEVC处理YUV 420颜色格式。由于亮度和色度分量具有不同的分辨率，因此我们无法将三个通道完全输入到网络中。与[4]中考虑YUV 444或RGB的方法不同，我们对U和V使用经过训练的Y分量模型。包括复杂运动和纹理在内的差异在Y或U，V中具有相同的表示。还仅对亮度分量执行对齐。对于U和V，直接检索块以对应于对齐的Y块。

B.对接方案如在第III-A节中所分析的，我们有两种如图1所示的用于视频编码的对准方案。对于过去已知帧之间对准的第二步，两种方案使用相同的方法，即ME。因为重构的帧在编码器和解码器上都可用，所以我们在那些重构帧中进行对齐而没有任何信令。两种方案的区别在于第一步中目标帧与最后一个已知帧之间的对齐方法。方案1使用ME进行对齐，称为MEA。方案2使用并置块，简称为ColMEA。 MEA提供运动信息来指导外推，但要以传输MV为代价，而ColMEA则避免传递开销。

C.不同方案的比较根据拟议的应用和比对方案，我们总共有四个交叉组合，可将拟议的外推法整合到HEVC中：MCP + ColMEA，MCP + MEA，REF + ColMEA和REF + MEA。我们以有效的方式实现了每种组合。然后，我们通过实验观察这四个选项中哪个是最好的压缩效率，并分析每个选项的利弊。

对于MCP + ColMEA，由于没有其他信息，因此请避免对运动信息（包括MV和参考索引）进行编码。对于MCP + MEA，我们需要对MV进行编码以进行对齐，为此我们将重用传统的MV编码模块。

对于REF + ColMEA，我们仅遵循传统的编码框架，仅添加新的参考。 REF方案允许外推结果和目标帧之间的位置偏差，因为传统的MC可以通过使用MV来补偿偏差。对于REF + MEA，有一个用于对齐的MV，但我们不对此MV进行编码。取而代之的是，我们从周围的PU中选择MV预测（MVP）来代替地面真实性MV。根据我们的实证研究，这更经济。

V.实验 A.实验设定 1）CNN训练：本文使用深度学习软件Caffe [31]在NVIDIA GTX 1080Ti图形处理单元（GPU）上训练我们的多尺度CNN。我们为提出的方法训练了两组模型。首先，我们使用未压缩的视频序列训练外推模型，并将该模型用于不同的QP。这是以下实验中的默认设置。其次，我们使用在特定QP上压缩的视频数据训练不同的模型，并将模型用于具有相应QP的压缩。例如，为了适应HEVC的通用测试条件，有四个模型训练出QP 22、27、32和37。这称为QP依赖网络。我们采用低延迟P配置在HEVC中生成训练数据。我们选择一些具有各种复杂运动，纹理和轻微噪音的序列来生成训练数据，包括[32]中的Marathon，Runners，RushHour及其降采样版本，以提供不同比例的运动和内容。训练数据中没有HEVC测试序列。最后，对于每个模型，我们从这些序列中获得约500,000个训练样本。我们使用双三次抽样来获得用于多尺度网络输入的块的缩减版本。我们设置相等的损失权重，即λk= 1，k∈ {1,2,3,4}。我们使用Adam [33]进行优化，使用0.9和0.999作为超参数而没有权重衰减。学习速率从前30个时期的0.0001开始，然后降低到0.00001，直到60个时期完成训练。批次大小为32。

2）编码配置和评估：我们已将提出的方法实施到HEVC参考软件HM（版本12.0）中，并与普通HM进行了比较。在实施过程中，Caffe通过其C ++接口集成到HM中以实现有效的网络推理。我们使用的测试设备是CPU + GPU集群，其中HM编码在CPU中运行，并且网络推理为在GPU中运行。 CPU是Intel®Xeon®CPU E5-2690 v4 @ 2.60GHz，GPU是具有12 GB RAM的NVIDIA TITAN Xp。在以下所有实验中，我们都遵循HEVC通用测试条件，并且除非另有说明，否则使用HM中提供的默认编码配置，无需进行任何更改。低延迟P（LDP），低延迟B（LDB）和随机访问（RA）配置均在以下四个QP下进行了测试：22、27、32和37 [34]。由于我们的建议用于帧间预测，因此省略了全帧内配置。最后，计算BD-rate [35]以量化不同方案之间节省的比特。此外，我们将我们的方法集成到了VVC参考软件VTM（版本6.0），并与香草VTM进行比较。我们遵循VVC通用测试条件，并在以下四个QP下测试低延迟B（LDB）配置：22、27、32和37。

B.结果和分析 1）不同方案的性能：表II总结了我们的四种组合的BD速率结果，包括MCP和REF与MEA和ColMEA，与LDP配置下的HEVC锚相比。我们提出的所有方法都可以节省大量的位。它证实了我们提出的帧外推法在视频编码中是有效和实用的。通过将MCP方案与REF方案进行比较，我们发现无论采用哪种对齐方案，REF方案都具有更好的整体压缩性能.REF方案可以容忍精度较低的外推结果，并通过利用另一方面，MCP方案显式地标识每个CU的帧间预测模式。每个外推块都已充分使用。 REF方案必须生成所有外推块，但只能将其中的某些部分用于帧间预测。因此，MCP方案具有更好的解码计算效率，这也是视频编码的重要标准。

对于不同的对准方案，它们在MCP和REF中表现出不同的性能。特别是，对于MCP，MEA比ColMEA更适合。因为MEA借助传输的比对MV会比ColMEA产生更准确的外推结果；直接将外推结果作为预测的MCP，尽管会花费一些额外的比特，但仍将得益于更准确的预测。但是，在BD速率降低方面，ColMEA的性能优于REF的MEA。如前所述，REF可以通过在外推结果上使用传统的ME / MC来补偿外推结果与目标帧之间的微小偏差，因此，发送对准MV来改善外推质量的好处变得微不足道。

2）常见测试条件下HEVC的结果：考虑到压缩性能，我们以REF + ColMEA方案作为最终建议。由于外推主要适用于低延迟配置，因此我们在LDP和LDB配置下测试我们的建议。 BD速率的详细结果列于表III。我们的建议大大提高了编码效率，在LDP配置下，Y，U和V分别使BD速率平均降低了5.3％，4.0％和3.0％，平均降低了2.8％，2.1％和1.5％在LDB配置下。对于相同的序列，由于双重原因，LDP下的比特节省量高于LDB下的比特节省量。首先，我们将帧外推公式化为单向预测任务，因此它更适合于LDP。其次，双向预测的好处降低了更精确外推的潜在好处。特别是，我们的提案在B类和E类中实现了显着的位节省，例如Cactus为7.6％，FourPeople（Y，LDP）为10.2％。 B类具有复杂多样的运动模式，包括运动的相机，超大运动（BasketballDrive），三维空间内的旋转（Cactus）等。所提出的方法可以消除参考帧中的平移，从而使网络专注于表征更复杂的运动，这在传统的帧间预测中很难解决。 E类包含更多纹理细节和噪点；我们的网络旨在了解各种差异，从而得出准确的预测。

出于验证目的，图2中显示了一些示例RD曲线。可以观察到，我们的方案在较高的比特率下比在较低的比特率下具有显着更好的性能。为了理解这种现象，我们对相关语法的编码比特进行计数HEVC和提出的方法中的元素，包括块分区信息，运动信息和残差信息。图3中的统计结果表明，与HEVC相比，我们建议中的块划分比特在所有比特率下均下降。运动信息和残差信息的减少在QP 22时很显着，但在较高QP时不那么明显。在HEVC中，对于复杂运动的区域，大块被分成较小的块，以使帧间预测更加准确[36]，尤其是在较高比特率下。由于我们的建议可以更准确地表征复杂的运动并提供更好的预测，因此减少了块划分的使用。此外，我们的提案和HEVC中的运动信息特征是不同的。我们可以将图3（b）除以图3（a），然后观察到，在我们的建议中，每个块的运动信息的平均比特在QP 22时减少，但在更高QP时增加。我们的建议也适用于RA配置。由于RA采用分级B编码结构[37]，因此最低时间级别的帧仍需要外插，而其他帧则需要内插。插值不在本文讨论范围之内。我们在需要外推的帧上使用建议的方法。对于这些帧，参考帧距离很远，因为在HEVC通用测试条件下，两个外推帧之间的间隔为8。表IV中的实验结果表明，我们的建议在这种情况下仍可节省0.3％的位。如果仅计算使用外推的帧的比特和PSNR，则BD速率降低为0.9％。这个数字仍然比LDB下的数字低得多。我们分析了原因，如图4所示。在LDP或LDB中，我们使用t1，; 2，…处的帧。。。作为参考，但在RA中，我们仅在t8，; 16，…处有帧。。。作为参考，RA中参考帧与目标帧之间的时间相关性要小得多，因此外推帧的质量较低。 3）模式选择结果：我们分析模式选择的结果以获得一些见解。特别地，我们执行命中率的统计，该命中率定义为在所有PU上选择外推参考帧的PU的比率。在此，比率是根据面积而不是计数来计算的，因为PU在HEVC中具有不同的大小。命中率统计数据如表V所示。首先，B-E类的命中率随着QP的增加而降低，这与RD曲线相符，表明我们的方案在更高的比特率下效率更高。 QP 22，选择率非常高，显示了我们方法对高清视频的有效性（有关超高清视频的结果，请参见下文）。第三，F类的命中率明显低于其他类，因为F类包含屏幕内容视频，但我们的推断模型是使用自然视频进行训练的。图5给出了模式选择的一些视觉结果。为运动和物体边缘丰富的区域选择外推框架，例如图5（a）和（b）中的篮球运动员，图5（c）和（图5）中的骑手，马头，腿和尾巴。 d）。为平滑区域和背景选择传统的参考系，例如图5（a）和（b）中的地板以及图5（c）和（d）中的草地和马体。 4）在其他条件下关于HEVC的结果：我们使用QP 17进行测试，并使用QP 17、22、27,32计算BD率。如表VI所示，在较低QP下的BD速率降低为6.5％，高于普通测试条件下的BD速率降低。当使用依赖于QP的网络时，BD速率降低会增加到7.8％。进一步证实，我们的方法在更高的比特率下效果更好。

此外，我们在五个典型的超高清序列上测试了我们的方法，结果如表VII所示。我们的方法导致Y，U和V的BD率平均降低5.5％，3.5％和4.2％，分别。这表明我们的方法可以很好地用于高分辨率序列。 5）关于VVC的结果：我们在VVC之上调查了我们的提案（REF + ColMEA）的有效性。实验结果列于表VIII。在先进的块划分，自适应环路滤波器和VVC中的仿射运动补偿都对我们的方法的编码增益产生影响的情况下，我们的方法导致BD率平均降低1.07％，0.54％和0.40％。仿射将在后面讨论。 6）编码增益分析：与单网络相比，依赖QP的网络可以进一步提高压缩效率，如表IX所示。在LDP配置下，BD速率降低率分别提高到6.7％，5.3％和4.1％，在LDB配置下，BD速率降低率分别提高到4.1％，3.4％和2.8％。注意，依赖于QP的网络不会增加编码/解码的复杂性，但是会增加模型存储成本。由于依赖于QP的网络的训练数据具有压缩噪声，因此我们方法的编码增益可能部分归因于参考帧中的噪声减少。此外，我们认为编码增益也来自运动和纹理的有效预测。因此我们进行了一些实验来验证。在无损编码的情况下，参考帧没有压缩噪声（但它们仍可能包含相机噪声）。我们测试了两种无损编码方法。首先是我们的REF + ColMEA计划。第二种称为多重假设，它与我们的方案相似，但使用四个参考块的简单平均值代替训练后的CNN。众所周知，简单的平均值可以有效地降低噪声[38]。无损编码结果如表X所示。对于E类（视频会议），我们的方案与多假设类似，其增益可以归因于减少静态区域的相机噪点。对于B，C，D类，我们的方案比多重假设要好得多，后者的额外收益应归因于更准确的预测。实际上，我们方法的编码增益不仅归因于降噪，而且归因于运动和纹理的有效预测。

C.讨论 1）帧对齐的验证：与以前的帧外推方法相比，我们方案的最大特色是在网络推理之前在块级别对齐参考帧。我们进行实验以验证对齐方式对帧间预测的有效性以及由此产生的视频编码优势。 Lin等。 [4]已经在HEVC中使用帧外推（VC-LAPGAN）来测试BD速率而不使用帧对齐。 [4]的网络结构，网络参数数量以及在HEVC中的实现与我们的建议类似。唯一值得注意的区别是是否对齐参考框架。另外，在[4]中，参考列表被调整为紧靠前四个帧，这与HM设置不同。我们使用HM默认参考和调整后的参考[4]进行实验。表XI显示了我们的建议与VC-LAPGAN之间的BD速率降低。总体而言，[4]中的方案实现了BD亮度的2.2％和2.0％，而我们的建议分别达到5.3％和5.2％。它表明，我们提出的对齐方式比简单的帧外推有助于节省更多位。我们通过提案和VC-LAPGAN进一步评估了外推帧的视觉质量。图6显示了具有极大和复杂运动的具有挑战性的序列的一些结果。与VC-LAPGAN相比，我们提出的方法产生的模糊帧更少，视觉效果更好。例如，我们可以轻松识别图6（b）和（d）中的数字，而在图6中很难分辨这些数字（ a）和（c）。请注意，VC-LAPGAN使用生成对抗性网络，但我们的方案采用非常简单的l1损耗。然而，还值得注意的是，由于我们的对齐是在块级进行的，因此我们的外推帧具有块状伪像，如图6（b）所示。 2）计算复杂度：与香草HM相比，我们记录了我们提出的四种组合的编码和解码时间。计算时间结果示于表XII。 MCP方案比REF方案具有更高的编码复杂度和更低的解码复杂度。在MCP方案中，在编码器端，我们现在对一个CTU执行多次帧外推，因为它分为32×32块，并且我们对每个块进行外推，这是高编码复杂度的原因。解码复杂度主要取决于选择外推模式的块数，因为经过训练的深度网络进行的运行帧外推比香草HM解码器中的简单计算要慢得多。对于我们的最终建议REF + ColMEA，编码器时间增加到155％，解码器时间增加到10344％。我们报告了模拟的编码/解码时间，但对于实际编解码器，时序结果可能会大不相同。我们方法的并行计算实现，尤其是REF + ColMEA方案。有关是否可以使用新参考帧的CTU级别标志可以写入切片标头中。在解码器端，在读取切片头之后，我们处理并行选择我们方法的CTU。这种并行性是可能的，因为我们的方法独立地处理每个CTU。之后，我们将外推结果作为参考来解码和重构当前切片。并行计算机制可以类似地在编码器侧使用。由于计算基础架构的限制，我们并未真正实现并行计算，但是我们可以提供一个估计，如表XIII所示。在表中，我们假设有一台并行计算机可以使用我们的方法处理所有CTU，然后将计算时间估算为处理一个CTU的最长时间。然后，在LDP配置下，编码/解码时间减少到113％和350％。如果使用专用硬件进行CNN推理，则可以进一步减少时间。为了使所提出的方法适合于实时应用，需要做进一步的工作。请注意，RA配置下的编码/解码时间增加少于LDP或LDB（见表XIII），因为需要外推的帧更少。

3）结合仿射运动模型：如前所述，我们期望参考帧对齐可以消除参考帧中的平移，然后网络将重点放在学习高阶运动上。我们已经证明，该提案更好地描述了复杂的议案。在VVC中，提出了仿射模型来处理特定种类的高阶运动，例如旋转和缩放。因此，我们想将仿射模型进行比较和结合。我们已经在HM软件中实现了[1]中描述的最先进的仿射运动技术，并且在此基础上还整合了我们的建议。我们对在LDP配置下具有丰富旋转或缩放的一些序列进行测试。表XIV总结了我们的提案+ HEVC与HEVC相比的BD速率结果，以及我们的提案+仿射+ HEVC与仿射+ HEVC相比的BD速率结果。对于测试序列，仅我们的建议就可以实现比HEVC锚更好的编码增益，从而平均将BD速率降低3.2％（Y，LDP）。此外，即使在仿射技术的基础上，我们的建议也可将BD速率平均降低2.1％（Y，LDP）。因此，我们的建议和仿射模型的优势在视频编码中似乎有所不同。

为了了解我们的提议和仿射模型之间的区别，我们在图7中显示了模式选择结果。Cactus序列具有card和tiger的二维旋转以及Cactus的三维旋转的特征。仿射模型可以很好地处理二维旋转，但是不能处理三维旋转。因此，如图7（b）所示，我们为Cactus选择了我们建议的方法。 BlueSky序列具有相机旋转功能，仿射模型可以很好地处理它。因此，如图7（c）所示，许多块选择仿射模式。但是，有些地方的叶子遮挡了天空。对于这些块，仿射模型不太准确。我们的建议可以很好地处理遮挡，如图7（d）所示。我们的建议对于丰富的缩放序列效果不佳，这可以通过仿射模型很好地处理。这是因为我们的帧对齐只处理平移，所以不能通过缩放来对齐帧。先进的对准方法可以在将来在这方面提供帮助。

VI.结论我们提出了一种基于深度网络的参考框架对齐的框架外推方法。与以前的帧外推方法不同，我们将参考帧对齐在块级别。对准有效地减少了网络输入的多样性，便于网络训练。实验结果，尤其是视觉结果，证实了对齐在帧外推中的有效性。特别地，所提出的帧外推是视频编码中的强大工具。我们研究了将帧外推集成到HEVC中的不同方案。实验结果表明，在不同方案之间使用REF + ColMEA。我们已经进行了广泛的实验，以验证我们的建议在HEVC和VVC中的有效性。结果表明，与仿射运动模型和HEVC锚点，VVC锚点相比，我们的提案可节省大量位。

有几个未解决的问题需要进一步研究，其中一些以前已经提到过。首先，我们可以使用除块级ME / MC之外的高级方法进行参考帧对齐。其次，我们需要找到兼顾高压缩效率和低复杂度的良好网络结构。第三，我们可以扩展帧对齐以进行帧插值。

Processed: 0.010, SQL: 8