淘宝APP用户行为数据分析之一 —— 数据集介绍

探索世界改变世界 2019-12-28

UserBehavior是阿里巴巴提供的一个淘宝用户行为数据集,用于隐式反馈推荐问题的研究。

数据来源? 传送门

数据情况介绍:

UserBehavior.csv

本数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。

数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。

关于数据集中每一列的详细描述如下:

列名称说明
用户ID整数类型,序列化后的用户ID
商品ID整数类型,序列化后的商品ID
商品类目ID整数类型,序列化后的商品所属类目ID
行为类型字符串,枚举类型,包括(‘pv‘, ‘buy‘, ‘cart‘, ‘fav‘)
时间戳行为发生的时间戳

注意到,用户行为类型共有四种,它们分别是

行为类型说明
pv商品详情页pv,等价于点击
buy商品购买
cart将商品加入购物车
fav收藏商品

关于数据集大小的一些说明如下

维度数量
用户数量987,994
商品数量4,162,024
商品类目数量9,439
所有行为数量100,150,807

由于源数据量较大(3.41G),后续只对300万条数据进行处理,这部分数据中包含29178名用户的行为记录。

淘宝APP用户行为数据分析之一 —— 数据集介绍

相关推荐