MovieLens 1M协同过滤数据集
movielens 数据集的 ml-1m 子集,算是做推荐系统最常用的“练手神器”了。数据量刚刚好,不大不小,跑起来也快,适合新手上手,也适合老手调算法。
用户-电影-评分三部分构成了这套数据的核心内容,一共 6040 个用户,3952 部电影,加起来 100 多万条评分记录,够你折腾一阵了。做个协同过滤、搭个 User-Item 矩阵,测试下SVD
或者k-NN
都蛮合适的。
协同过滤是推荐系统里比较基础的一招:简单说就是“喜欢你喜欢的我也喜欢”。你可以试试用户-用户的,也可以搞个物品-物品的。比如两个用户都喜欢《The Matrix》
,那另一个用户喜欢的《Inception》
也值得推荐。
压缩包是movielens 数据集.rar
,下好解压就能用。数据结构也比较清晰,CSV 格式,几行代码就能读进去。用pandas
,爽。
如果你想更深入一点,还可以搭配一些现成资源玩,比如这篇关于 MovieLens 的实现,或者这份基于 MovieLens 的推荐系统源码,都挺不错的,省时间。
嗯,如果你最近正好在研究推荐算法,或者想做个推荐模块的 demo,movielens 的 ml-1m子集是个还挺省心的选择。
下载地址
用户评论