在Python 中实现你自己的推荐系统

在python 中实现你自己的推荐系统

一点号复旦大数据昨天

现今，推荐系统被用来个性化你在网上的体验，告诉你买什么，去哪里吃，甚至是你应该和谁做朋友。人们口味各异，但通常有迹可循。人们倾向于喜欢那些与他们所喜欢的东西类似的东西，并且他们倾向于与那些亲近的人有相似的口味。推荐系统试图捕捉这些模式，以助于预测你还会喜欢什么东西。电子商务、社交媒体、视频和在线新闻平台已经积极的部署了它们自己的推荐系统，以帮助它们的客户更有效的选择产品，从而实现双赢。

两种最普遍的推荐系统的类型是基于内容和协同过滤（CF）。协同过滤基于用户对产品的态度产生推荐，也就是说，它使用“人群的智慧”来推荐产品。与此相反，基于内容的推荐系统集中于物品的属性，并基于它们之间的相似性为你推荐。一般情况下，协作过滤（CF）是推荐引擎的主力。该算法具有能够自身进行特征学习的一个非常有趣的特性，这意味着它可以开始学习使用哪些特性。CF可以分为基于内存的协同过滤和基于模型的协同过滤。在本教程中，你将使用奇异值分解（SVD）实现基于模型的CF和通过计算余弦相似实现基于内存的CF。

我们将使用MovieLens数据集，它是在实现和测试推荐引擎时所使用的最常见的数据集之一。它包含来自于943个用户以及精选的1682部电影的100K个电影打分。你应该添加解压缩的movielens数据文件夹你的notebook目录下。你也可以在这里下载数据集。

header=['user_id''item_id''rating''timestamp']

df=pd.read_csv('ml-100k/u.data'sep='\t'names=header)

先看看数据集中的前两行。接下来，让我们计算唯一用户和电影的数量。

n_users=df.user_id.unique.shape[0] n_items=df.item_id.unique.shape[0]

你可以使用scikit-learn库将数据集分割成测试和训练。Cross_validation.train_test_split根据测试样本的比例（test_size），本例中是0.25，来将数据混洗并分割成两个数据集。

from sklearn import cross_validationascv

train_datatest_data=cv.train_test_split(dftest_size=0.25)

基于内存的协同过滤

基于内存的协同过滤方法可以分为两个主要部分：用户-产品协同过滤和产品-产品协同过滤。一个用户-产品协同过滤将选取一个特定的用户，基于打分的相似性发现类似于该用户的用户，并推荐那些相似用户喜欢的产品。相比之下，产品-产品协同过滤会选取一个产品，发现喜欢该产品的用户，并找到这些用户或相似的用户还喜欢的其他的产品。输入一个产品，然后输出其他产品作为推荐。

用户-产品协同过滤: “喜欢这个东西的人也喜欢……”

产品-产品协同过滤: “像你一样的人也喜欢……”

在这两种情况下，从整个数据集构建一个用户-产品矩阵。由于你已经将数据拆分到测试集和训练集，那么你将需要创建两个[943 x 1682]矩阵。训练矩阵包含75%的打分，而测试矩阵包含25%的打分。

用户-产品矩阵的例子：

php?url=0ErPw8rxIB" alt="在Python 中实现你自己的推荐系统" />

在构建了用户-产品矩阵后，计算相似性并创建一个相似性矩阵。

在产品-产品协同过滤中的产品之间的相似性值是通过观察所有对两个产品之间的打分的用户来度量的。

对于用户-产品协同过滤，用户之间的相似性值是通过观察所有同时被两个用户打分的产品来度量的。

通常用于推荐系统中的距离矩阵是余弦相似性，其中，打分被看成n维空间中的向量，而相似性是基于这些向量之间的角度进行计算的。用户a和m的余弦相似性可以使用下面的公式进行计算，其中，获取用户向量的点积

和

，然后用向量的欧几里得长度的乘积来除以它。

要计算产品m和b之间的相似性，使用公式：

第一步是创建用户-产品矩阵。由于你既有测试数据，又有训练数据，那么你需要创建两个矩阵。

#Create two user-item matrices, one for training and another for testing

train_data_matrix=np.zeros((n_usersn_items))

forlineintrain_data.itertuples:

train_data_matrix[line[1]-1line[2]-1]=line[3]

test_data_matrix=np.zeros((n_usersn_items))

forlineintest_data.itertuples:

test_data_matrix[line[1]-1line[2]-1]=line[3]

你可以使用sklearn的pairwise_distances函数来计算余弦相似性。注意，输出范围从0到1，因为打分都是正的。

fromsklearn.metrics.pairwise import pairwise_distances

user_similarity=pairwise_distances(train_data_matrixmetric='cosine')

item_similarity=pairwise_distances(train_data_matrix.Tmetric='cosine')

下一步是做出预测。你已经创建了相似性矩阵：user_similarity和item_similarity，因此，你可以通过为基于用户的CF应用下面的公式做出预测：

你可以将用户k和a之间的相似性看成权重，它乘以相似用户a (校正的平均评分用户)的评分。你需要规范化该值，使打分位于1到5之间，最后，对你尝试预测的用户的平均评分求和。

这里的想法是，某些用户可能会倾向于对所有的电影，总是给予高或低评分。这些用户提供的评分的相对差比绝对评分值更重要。举个例子：假设，用户k对他最喜欢的电影打4星，而对所有其他的好电影打3星。现在假设另一个用户t对他/她喜欢的电影打5星，而对他/她感到无聊的电影打3星。那么这两个用户可能品味非常相似，但对打分系统区别对待。

当为基于产品的CF进行预测时，你无须纠正用户的平均打分，因为查询用户本事就是用来做预测的。

def predict(ratingssimilaritytype='user'):

iftype=='user':

mean_user_rating=ratings.mean(axis=1)

#You use np.newaxis so that mean_user_rating has same format as ratings

ratings_diff=(ratings-mean_user_rating[:np.newaxis])