You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

10 KiB

12 | 如果关注排序效果,那么这个模型可以帮到你

矩阵分解在推荐系统中的地位非常崇高,恐怕本专栏介绍的其他算法模型都不能轻易地撼动它。

它既有协同过滤的血统,又有机器学习的基因,可以说是非常优秀了;但即便如此,传统的矩阵分解无论是在处理显式反馈,还是处理隐式反馈都让人颇有微词,这一点是为什么呢?

矩阵分解的不足

前面我讲过的两种矩阵分解,本质上都是在预测用户对一个物品的偏好程度,哪怕不是预测评分, 只是预测隐式反馈,也难逃这个事实,因为算法展现出来的目标函数就出卖了这一切。

得到这样的矩阵分解结果后,常常在实际使用时,又是用这个预测结果来排序。所以,从业者们口口声声宣称想要模型的预测误差最小化,结果绕了一大圈最后还是只想要一个好点的排序,让人不禁感叹:人心总是难测。

这种针对单个用户对单个物品的偏好程度进行预测得到结果后再排序的问题在排序学习中的行话叫做point-wise其中point意思就是只单独考虑每个物品每个物品像是空间中孤立的点一样。

与之相对的还有直接预测物品两两之间相对顺序的问题就叫做pair-wisepair顾名思义就是成对成双也许恐怕这类模型对单身的人士不是很友好。

前面讲的矩阵分解都属于point-wise模型。这类模型的尴尬是只能收集到正样本没有负样本于是认为缺失值就是负样本再以预测误差为评判标准去使劲逼近这些样本。逼近正样本没问题但是同时逼近的负样本只是缺失值而已还不知道真正呈现在用户面前到底是不喜欢还是喜欢呢

虽然这些模型采取了一些措施来规避这个问题,比如负样本采样,但是尴尬还是存在的,为了排序而绕路也是事实。

既然如此能不能直面问题采用pair-wise来看待矩阵分解呢当然能不然我也不会写出这一篇专栏文章了。

其实人在面对选择时总是倾向矮子中选高个子而不是真的在意身高到底是不是180因此更直接的推荐模型应该是能够较好地为用户排列出更好的物品相对顺序而非更精确的评分。

这个问题已经有可爱的从业者们提出了方法就是本文的主角贝叶斯个性化排序简称BPR模型。下面我就带你一探这个模型的究竟。

贝叶斯个性化排序

在前面的专栏文章中有一个词叫做均方根误差被我提过多次用于评价模型预测精准程度的。那么现在要关注的是相对排序用什么指标比较好呢答案是AUCAUC全称是Area Under Curve意思是曲线下的面积这里的曲线就是 ROC 曲线。

AUC

但是,我不打算继续解释什么是 ROC 曲线了那是它的原始定义而我想跟你悄悄说的是另一件事AUC这个值在数学上等价于模型把关心的那一类样本排在其他样本前面的概率。最大是1完美结果而0.5就是随机排列0就是完美地全部排错。

听到这个等价的AUC解释你是不是眼前一亮这个非常适合用来评价模型的排序效果比如说得到一个推荐模型后按照它计算的分数能不能把用户真正想消费的物品排在前面这在模型上线前是可以用日志完全计算出来的。

AUC怎么计算呢一般步骤如下。

  1. 用模型给样本计算推荐分数,比如样本都是用户和物品这样一对一对的,同时还包含了有无反馈的标识;
  2. 得到打过分的样本每条样本保留两个信息第一个是分数第二个是0或者11表示用户消费过是正样本0表示没有是负样本
  3. 按照分数对样本重新排序,降序排列;
  4. 给每一个样本赋一个排序值,第一位 r1 = n第二位 r2 = n-1以此类推其中要注意如果几个样本分数一样需要将其排序值调整为他们的平均值
  5. 最终按照下面这个公式计算就可以得到AUC值。

我在文稿中放了这个公式,你可以点击查看。

AUC = \\frac{\\sum\_{i\\in(样本)}{r\_{i}} - \\frac{M\\times{(M+1)}}{2}}{M\\times{N}}

这个公式看上去复杂,其实很简单,由两部分构成:

第一部分: 分母是所有我们关心的那类样本也就是正样本有M个以及其他样本有N个这两类样本相对排序总共的组合可能性是M x N

第二部分: 分子也不复杂原本是这样算的第一名的排序值是r1它在排序上不但比过了所有的负样本而且比过了自己以外的正样本。

但后者是自己人所以组合数要排除于是就有n - M种组合以此类推排序值为rM的就贡献了rM - 1把这些加起来就是分子。

关于AUC越接近1越好是肯定的但是并不是越接近0就越差最差的是接近0.5如果AUC很接近0的话只需要把模型预测的结果加个负号就能让AUC接近1具体的原因自行体会。

好了已经介绍完排序的评价指标了该主角出场了BPR模型它提出了一个优化准则和学习框架使得原来传统的矩阵分解放进来能够焕发第二春。

那到底BPR做了什么事情呢主要有三点

  1. 一个样本构造方法;
  2. 一个模型目标函数;
  3. 一个模型学习框架。

通过这套三板斧,便可以脱离评分预测,来做专门优化排序的矩阵分解。下面详细说说这三板斧。

构造样本

前面介绍的矩阵分解,在训练时候处理的样本是:用户、物品、反馈,这样的三元组形式。

其中反馈又包含真实反馈和缺失值缺失值充当的是负样本职责。BPR则不同提出要关心的是物品之间对于用户的相对顺序于是构造的样本是用户、物品1、物品2、两个物品相对顺序这样的四元组形式其中“两个物品的相对顺序”取值是

  1. 如果物品1是消费过的而物品2不是那么相对顺序取值为1是正样本
  2. 如果物品1和物品2刚好相反则是负样本
  3. 样本中不包含其他情况物品1和物品2都是消费过的或者都是没消费过的。

这样一来学习的数据是反应用户偏好的相对顺序而在使用时面对的是所有用户还没消费过的物品这些物品仍然可以在这样的模型下得到相对顺序这就比三元组point-wise样本要直观得多。

目标函数

现在,每条样本包含的是两个物品,样本预测目标是两个物品的相对顺序。按照机器学习的套路,就该要上目标函数了。

要看BPR怎么完成矩阵分解你依然需要像交替最小二乘那样的思想。

先假装矩阵分解结果已经有了,于是就计算出用户对于每个物品的推荐分数,只不过这个推荐分数可能并不满足均方根误差最小,而是满足物品相对排序最佳。

得到了用户和物品的推荐分数后就可以计算四元组的样本中物品1和物品2的分数差这个分数可能是正数也可能是负数也可能是0。

你和我当然都希望的情况是如果物品1和物品2相对顺序为1那么希望两者分数之差是个正数而且越大越好如果物品1和物品2的相对顺序是0则希望分数之差是负数且越小越好。

用个符号来表示这个差Xu12表示的是对用户u物品1和物品2的矩阵分解预测分数差。然后再用 sigmoid 函数把这个分数差压缩到0到1之间。

\\Theta = \\frac{1}{1 + e^{-(X\_{u12})}}

也其实就是用这种方式预测了物品1排在物品2前面的似然概率所以最大化交叉熵就是目标函数了。

目标函数通常还要防止过拟合加上正则项正则项其实认为模型参数还有个先验概率这是贝叶斯学派的观点也是BPR这个名字中“贝叶斯”的来历。

BPR认为模型的先验概率符合正态分布对应到正则化方法就是L2正则这些都属于机器学习的内容这里不展开讲。

我来把目标函数写一下:

\\prod\_{u,i,j}{p(i>\_ {u}j | \\theta)p(\\theta)}

所有样本都计算模型参数先验概率p theta和似然概率的乘积最大化这个目标函数就能够得到分解后的矩阵参数其中theta就是分解后的矩阵参数。

最后说一句把这个目标函数化简和变形后和把AUC当成目标函数是非常相似的也正因为如此BPR模型的作者敢于宣称该模型是为AUC而生的。

训练方法

有了目标函数之后就要有请训练方法了。显然是老当益壮的梯度下降可以承担这件事梯度下降又有批量梯度和随机梯度下降两个选择前者收敛慢后者训练快却不稳定。因此BPR的作者使用了一个介于两者之间的训练方法结合重复抽样的梯度下降。具体来说是这样做的

  1. 从全量样本中有放回地随机抽取一部分样本;
  2. 用这部分样本,采用随机梯度下降优化目标函数,更新模型参数;
  3. 重复步骤1直到满足停止条件。

这样,就得到了一个更符合推荐排序要求的矩阵分解模型了。

总结

今天是矩阵分解三篇的最后一篇,传统的矩阵分解,无论是隐式反馈还是显式反馈,都是希望更加精准地预测用户对单个物品的偏好,而实际上,如果能够预测用户对物品之间的相对偏好,则更加符合实际需求的直觉。

BPR就是这样一整套针对排序的推荐算法它事实上提出了一个优化准则和一个学习框架至于其中优化的对象是不是矩阵分解并不是它的重点。

但我在这里结合矩阵分解对其做了讲解同时还介绍了排序时最常用的评价指标AUC及其计算方法。

你在看了BPR算法针对矩阵分解的推荐计算过程之后试着想一想如果不是矩阵分解而是近邻模型那该怎么做欢迎留言给我一起聊聊。