论文（基于内容的推荐系统）：GraphCAR: Content-aware Multimedia Recommendation with Graph Autoencoder

科技2022-07-10 355

GraphCAR: 基于内容的推荐系统模型

摘要1. 介绍2. 准备2.1 问题公式化2.2 潜在因子模型2.3 贝叶斯个性化排序2.4 图卷积网络 3. 模型（基于图自动编码的内容感知推荐系统）3.1 总体框架3.2 编码：图卷积网络3.3 解码器和目标函数3.4 算法 4. 实验4.1 实验设定4.2 模型比较（回答问题RQ1）4.3 模型分析：在不同稀疏程度的用户上的表现 5. 总结致谢参考文献

摘要

准确的向大量用户推荐来自大量事物相关的多媒体项目，是很多平台上一项不可或缺但又很困难的任务。一个有前景的方式是把用户和项目投射到一个潜在空间，然后通过隐层向量的内积来推荐项目。然而，以前的研究将很少的精力放在多媒体内容本身，不能像利用隐式反馈一样很好地利用偏好数据。为了填补这一空缺，我们提出了一个基于图形自动编码器的多媒体推荐模型（Content-aware Multimedia Recommendation Model with Graph Autoencoder (GraphCAR)），把信息丰富的多媒体内容和用户-项目交互结合起来。具体来说，用户项目交互、用户属性和多媒体内容（图形、视频、音频等），作为自动编码器的输入，为每个用户生成项目偏好分数。通过对两个真实世界多媒体web服务（Amazon和Vine）的泛化实验，我们的实验结果显示，GraphCAR模型表现绩效明显优于最先进的技术，包括协同过滤和基于内容的方法。

1. 介绍

近年来，推荐系统在多媒体领域扮演着一个重要角色。然而，在众多网络服务中，用户数量和图片/视频数量都在急剧增长，给多媒体推荐造成了比以往任何时候都更多的挑战。占主导地位的网页多媒体内容需要当代的推荐系统。

协同过滤按照用户相似的喜好来分组，在此基础上为用户进行推荐。在多媒体推荐的背景下，项目是指不同类型的多媒体项目。大多数协同过滤方法依赖于项目的星级评分，这是提供了显式反馈的。

然而，在多媒体领域中，传统的CF方法有两个缺点。首先，CF方法无法专注于多媒体内容本身，这是用户在选择图片/视频时的一个重要因素。其次，在很多应用中显示的评分并不总是可获得的。更多时候，像照片的“喜欢”，电影的“欣赏”更容易收集，这些数据都是基于隐式反馈的。

为了把多媒体内容和协同过滤方法结合起来，并且最大程度的利用隐式反馈，我们提出了一个新颖的基于图自动编码的内容感知多媒体推荐框架（GraphCAR）。我们用两个图卷积网络作为编码器分别为用户和项目的潜在因子建模。之后，我们求两个潜在向量的内积来生成偏好分数。我们在两个真实世界中代表不同媒体领域的数据集上广泛的评估GraphCAR：Amazon Movies and TVs dataset, Vine dataset. 前者提供图片特征，后者提供视频特征。通过实验，我们观察到GraphCAR优于在最好配置参数条件下的其他相竞争的包括从CF到基于内容的方法。

本文工作的主要贡献：

我们提出的基于图自动编码的内容感知多媒体推荐框架（GraphCAR）在基于隐式反馈的CF中使用图自动编码器。为了把[用户-项目交互]与[用户属性和多媒体内容]结合起来，我们引入两个图卷积网络，这两个神经网络可以通过有效的端到端随机梯度下降训练跟任何相邻的模型无缝结合。在两个真是数据集上的实验表明，GraphCAR的表现明显优于CF和基于内容的方法这些最先进的技术。

2. 准备

在详解我们模型细节之前，先讨论一下预备环节。

2.1 问题公式化

给定用户集 $u = [1, 2, . . . N]$ ，项目集 $v = [1, 2, . . . M]$ ，交互矩阵 $R\in \R^{N\times M}$ ， $R_{ij}$ 表示用户 $u_i$ 和项目 $v_i$ 之间的交互值。我们用集合 $\mathbf R=\{(i,j)|R_{ij}=1\}$ 表示已经存在潜在交互的用户-项目对。我们这项工作的目标是预测用户可能会与哪些潜在项目发生交互。

2.2 潜在因子模型

潜在因子模型将用户和项目都映射到一个联合 $D$ 维潜在空间中。我们定义用户的潜在向量集 $U=[u_1,u_2,...u_N]$ ，项目的潜在向量集 $V=[v_1,v_2,...v_M]$ ，其中 $D<<\min(M,N)$ ，第 $i$ 个用户对第 $j$ 个项目的喜好分值预测为 $\hat{R}_{ij} = \langle u_i,v_j \rangle = u_i^T v_j \tag 1$ 目标是最小化下面带正则化项的平方误差： $\argmin_{U,V} \sum_{i,j\in \mathbf R}(R_{ij}-\hat{R}_{ij})^2 + \lambda (||U||^2+||V||^2) \tag 2$ $\lambda$ 是正则化（ $L_2$ 范数防止过拟合）参数。然后我们通过两个潜在因子向量的内积计算喜好分值，并且根据预测的喜好分值 $\hat{R}_{ij}$ 将项目排序。

2.3 贝叶斯个性化排序

BPR模型是一个在CF中处理隐性信息的框架，参考文献[13]。BPR为一个用户和两个项目的三元组建模，其中一个项目得到的是正反馈（可以理解为喜欢这个项目），而另一个项目不是（可以理解为没浏览过这个项目）。广泛应用的BPR目标函数是： $\argmin_{U,V} \sum_{(i,j,k)\in \mathbf R_{\beta}}-\ln \sigma(\hat R_{ij} - \hat R_{ik})+\lambda(||U||^2+||V||^2) \tag 3$ 其中 $\sigma(x)=\frac{1}{1+e^{-x}}$ 是logistic sigmoid function，取值范围 $(0, 1)$ 。训练数据 $\mathbf R_{\beta}$ 定义为 $\ R ( i ) } (4) \mathbf R_{\beta}=\{(i,j,k) | j \in \mathbf R(i) \land k \in \mathbf I \backslash \mathbf R(i)\} \tag 4$ 其中 $\mathbf I$ 表示所有项目的集合， $\mathbf R(i)$ 表示与第 $i$ 个用户交互的项目的集合（即 $i$ 喜好的项目集合）。公式 $(3)$ 中的 $(i,j,k)\in \mathbf R_{\beta}$ 表示用户 $i$ 被认为更喜欢项目 $j$ 而超过 $k$

在本文工作中，我们使用BPR作为基本学习模型。

2.4 图卷积网络

图提供了一种通用语言来表达相同类型和不同类型的实体之间的关系，例如用户和项目之间，参考文献[5]。如果我们把用户和项目看做一个二分图的结点，推荐系统就可以被看做是一个连线预测的问题。图卷积网络已经被验证，在很多不同的图相关的任务是高效的，参考文献[7,8]，包括协同过滤推荐系统（参考文献[17]），但是没有把太多关注放在基于内容的推荐系统上。

图卷积网络把邻接矩阵 $A$ 和特征矩阵 $X$ 作为输入，产生结点级别的输出。分层传播规则是： $H^{(l+1)}=f(H^{(l)},A) = a(A\cdot H^{(l)}\cdot W^{(l)})\tag 5$ 其中 $W^{(l)}$ 表示神经网络第 $l$ 层的权重矩阵。 $a (x)$ 表示非线性激活函数，如sigmoid，ReLU。

然而，我们不能直接把公式 $(5)$ 用在我们的工作上。当我们把图卷积网络用在推荐系统上时，由于用户和项目的数量不相等，邻接矩阵都不是对称的（即不是方阵）。

3. 模型（基于图自动编码的内容感知推荐系统）

本节将介绍GraphCAR的细节。首先介绍一般的GraphCAR框架，详述了模型的动机。然后展示上文提出的编码器和解码器的公式形式。最后是GraphCAR的优化。

3.1 总体框架

GraphCAR是一个为 $\lceil$ 用户的喜好分值关于多媒体内容 $\rfloor$ 建模的神经网络。我们用两层图卷积网络分别为用户和项目编码。然后，我们用两个潜在因子向量的内积去预估喜好评分。我们在图卷积网络中计算损失并且使用反向传播更新参数。在我们得到优化后的用户和项目潜在因子向量后，推荐系统就简化为一个根据预测分值去排序的问题。

3.2 编码：图卷积网络

图卷及网络讲解假设有 $m$ 个用户和 $n$ 个项目，每个用户有一个 $d_u$ 维的属性向量，每个项目有一个 $d_i$ 维的特征向量。编码的目的是为所有用户和项目生成潜在因子，编码就采用图卷积网络进行编码。我们提出一个新颖的双层不对称图卷积网络去计算用户和项目的潜在表示。给定用户-项目交互矩阵 $R$ （大小 $m\times n$ ），用户属性矩阵 $I$ （大小 $m\times d_u$ ），项目特征矩阵 $X$ （大小 $n\times d_i$ ）。用户的潜在因子为： $U_0 = ReLU(R^T\cdot I \cdot P_0)\tag 6$

$\sigma(R \cdot U_0 \cdot P_1)\tag 7$ 其中 $\sigma(x)$ 是logistic sigmoid function， $P_0,P_1$ 是两个权重矩阵。同理给出项目的潜在因子： $V_0 = ReLU(R\cdot X \cdot W_0)\tag 8$

$\sigma(R^T \cdot V_0 \cdot W_1)\tag 9$

3.3 解码器和目标函数

公式 $(6, 7, 8, 9)$ 生成的潜在因子 $U$ 和 $V$ 拥有相同的列数 $d$ 。我们根据LFM方法（公式 $(1)$ ）来计算喜好分值： $\hat{R}=U\cdot V^T \tag {10}$ 目标函数；GraphCAR在BPR成对学习目标中获得优化（参考文献[13]）：优化正样本项目和未知样本项目组成的二元组排名： $\argmin_{\theta} \sum_{(u,i,j)\in \mathbf R_{\beta}} -\ln \sigma(\hat{R}_{ui}-\hat{R}_{uj}) + \frac{\lambda}{2}\cdot(\sum_{\theta \in {(W_0,W_1,P_0,P_1)}}||\theta||^2) \tag{11}$ 其中 $\lambda$ 是正则化参数。

3.4 算法

一个在三元组训练样本上进行自主抽样法（bootstrap sampling）为根基的随机梯度下降算法，被用来处理我们的网络。

简单说，我们把GraphCAR分为5个步骤：

计算所有用户和项目的喜好分值。我们从所有用户中抽取一个小批量，并未这个小批量的所有用户生成训练样本三元组。计算这个小批量上的BPR损失值，并使用反向传播更新GraphCAR的参数。生成下一个小批量，并重复2-3。重复1-4，直到目标函数收敛。

4. 实验

在本节中，我们将实施实验来回答以下问题：

RQ1 GraphCAR比以往最先进的技术表现效果更好吗？RQ2 针对不同稀疏程度的用户，GraphCAR的表现如何？

我们首先对实验超参数进行设定，然后回答上面两个问题，最后是一些解释性的例子。

4.1 实验设定

数据集；我们选择了两个公开可用的数据集：Amazon Movies和Vine。Table 1总结了这两个数据集的特点。The Amazon Moviesand TVs数据集通过参考文献[4,11]构造。由于数据集的高稀疏性，我们过滤了数据集，只保留了至少拥有50个电影交互的用户。Vine数据集通过参考文献[2]的方法使用，也过滤了数据集，只保留了至少拥有10次交互的用户。

评估方案；我们采用hold-one-out评估方法，在参考文献[13]中采用过。对于每一个用户，我们把他/她最新的交互数据作为测试机，剩余的用于训练。基于排序的喜好分值，我们采用Hit Ratio(HR，top k的命中率)和Normalized Discounted Cumulative Gain (NDCG，归一化折损累计增益)来衡量实际标注的项目是否出现在排名列表，以及它在什么位置。如未特别指定，我们对这两个指标把所有项目中的排序列表大小截取为100。

欲比较的以往算法（Baselines）；ItemKNN [14], BPR [13], SVD++ [9], and ACF [2]. 请注意，所有基于模型的CF模型都是通过优化相同的BPR成对排序损失来进行公平比较的。

特征提取；Amazon数据集为每个项目提供4096维的视觉特征，通过深度卷积神经网络[11]来提取。对于Vine，我们采用widely-used architectureResNet-50参考文献[3]来提取视频帧的视觉特征。

参数设定；基于矩阵分解（MF）的模型，我们随机初始化服从高斯分布 $(\mu=0,\sigma=0.01)$ 的参数，并且使用随机梯度下降（SGD）进行优化。我们对超参数进行了测试：batch size of [128, 256, 512]，潜在特征维度[8, 16, 32, 64, 128]，学习率[0.001, 0.003, 0.01, 0.03, 0.1]，正则化系数[0, 0.0001, 0.0003, 0.001, 0.003, 0.01,0.1]。我们只展示潜在特征维度 $D = 128$ (一个相当大的数字)的结果，此情形下获得了很高的精确度。

4.2 模型比较（回答问题RQ1）

Table 2展示了每一个方法在最好参数配置下的HR@100和NDCG@100表现能力（数字100在评估方案最后一句提到）。我们可以观察到，我们的模型在任一数据集上的HR指标都是最优的，意义重大的是表现能力优于最先进的MF计数和其他混合方法。尽管对于Vine数据集，我们的模型在NDCG指标上稍逊色于ACF，但在Amazon数据集上的表现是最好的。

4.3 模型分析：在不同稀疏程度的用户上的表现

为了研究我们的模型对于不同系数程度的用户的表现能力，我们展示了关于每个用户交互不同数量的项目时的表现能力。从Figure 2可以看出，用户对项目的交互较少时，我们的模型表现很好，尽管优势不是很明显。我们提出的模型对于用户交互项目很稠密的情况具有很大的优势。在这种状况下，我们的模型表现能力非常意义重大地优于其他与之竞争的方法。

5. 总结

在这项工作中，我们提出了一个新颖的模型——基于图自动编码的内容感知推荐系统，为了处理多媒体中的隐含反馈，并将CF方法与多媒体内容相结合以获得更好的性能。据我们所知，GraphCAR是首次利用图卷积网络来解决内容感知推荐系统的工作。我们在两个数据集上进行了实验，证明了GraphCAR在多媒体推荐方面的性能优于目前最先进的技术。将来，我们计划将GraphCAR拓展到离散模型（参考文献[10,15,16,18]）以获得很高的效率。此外，我们会探索一个更加复杂的解码器，例如NCF[6]。

致谢

This work was supported in part by the National Natural ScienceFoundation of China under Project 61502081 and Project 61632007,in part by the Fundamental Research Funds for the Central Univer-sities under Project ZYGX2014Z007.

参考文献

[1]Deepak Agarwal and Bee-Chung Chen. 2009. Regression-based latent factormodels. InProc. KDD. 19–28.

[2]Jingyuan Chen, Hanwang Zhang, Xiangnan He, Liqiang Nie, Wei Liu, and Tat-Seng Chua. 2017. Attentive Collaborative Filtering: Multimedia Recommendationwith Item- and Component-Level Attention. InProc. SIGIR. 335–344.

[3]Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2016. Deep ResidualLearning for Image Recognition. InProc. CVPR. 770–778.

[4]Ruining He and Julian McAuley. 2016. Ups and Downs: Modeling the VisualEvolution of Fashion Trends with One-Class Collaborative Filtering. InProc.WWW. 507–517.

[5]Xiangnan He, Ming Gao, Min-Yen Kan, and Dingxian Wang. 2017. BiRank:Towards Ranking on Bipartite Graphs.IEEE TKDE29, 1 (2017), 57–71.

[6]Xiangnan He, Lizi Liao, Hanwang Zhang, Liqiang Nie, Xia Hu, and Tat-SengChua. 2017. Neural Collaborative Filtering. InProc. WWW. 173–182.

[7]Thomas N. Kipf and Max Welling. 2016. Semi-Supervised Classification withGraph Convolutional Networks.CoRRabs/1609.02907 (2016).

[8]Thomas N. Kipf and Max Welling. 2016. Variational Graph Auto-Encoders.CoRRabs/1611.07308 (2016).

[9]Yehuda Koren. 2008. Factorization meets the neighborhood: a multifacetedcollaborative filtering model. InProc. KDD. 426–434.

[10]Defu Lian, Rui Liu, Yong Ge, Kai Zheng, Xing Xie, and Longbing Cao. 2017.Discrete Content-aware Matrix Factorization. InProc. KDD. 325–334.

[11]Julian J. McAuley, Christopher Targett, Qinfeng Shi, and Anton van den Hengel.2015. Image-Based Recommendations on Styles and Substitutes. InProc. SIGIR.43–52.

[12]Steffen Rendle. 2012. Factorization Machines with libFM.ACM TIST3, 3 (2012),57:1–57:22.

[13]Steffen Rendle, Christoph Freudenthaler, Zeno Gantner, and Lars Schmidt-Thieme.2009. BPR: Bayesian Personalized Ranking from Implicit Feedback. InProc. UAI.452–461.

[14]Badrul Munir Sarwar, George Karypis, Joseph A. Konstan, and John Riedl. 2001.Item-based collaborative filtering recommendation algorithms. InProc. WWW.285–295.

[15]Fumin Shen, Yadong Mu, Yang Yang, Wei Liu, Li Liu, Jingkuan Song, and Heng TaoShen. 2017. Classification by Retrieval: Binarizing Data and Classifiers. InProc.SIGIR. 595–604.

[16]Fumin Shen, Chunhua Shen, Wei Liu, and Heng Tao Shen. 2015. SupervisedDiscrete Hashing. InProc. CVPR. 37–45.

[17]Rianne van den Berg, Thomas N. Kipf, and Max Welling. 2017. Graph Convolu-tional Matrix Completion.CoRRabs/1706.02263 (2017).

[18]Hanwang Zhang, Fumin Shen, Wei Liu, Xiangnan He, Huanbo Luan, and Tat-SengChua. 2016. Discrete Collaborative Filtering. InProc. SIGIR. 325–334.

Processed: 0.017, SQL: 8