数据基本介绍
数据在推荐系统的任务中是重中之重,不光是推荐系统,在整个深度学习体系中,“garbage in,garbage out”都是从业者的金科玉律。
所以,数据处理永远都是ai从业者在日常工作中难以忽略的一项极为重要的工作内容。
1. 数据构成
推荐系统的数据构成相较其他的nlp、cv等机器学习领域,具有自己独特的特点,因为推荐系统的数据是来自于用户在前端的行为实时产生的数据,所以这些数据天然是具有标注的性质的。比如,用户发生了点击的行为大概率是要优于用户看过但是没有点击的item的,用户收藏的item大概率是要优于只是点进来看了看的item的。
那么,我们要怎么样才能将用户在前端的行为恰当的表现在数据中呢?这就是在构建推荐系统的特征的时候极为重要,也极为困难的一个部分了。
这涉及到了数据的基本构成和我们在数据生成的过程中需要注意到的方方面面的内容。
这里,我们先简单介绍一下推荐系统数据的基本构成情况。
1.1 特征
推荐系统中,不可或缺的三个部分是用户(user),物品(item), 环境(context)。
这三者构成了推荐系统下的整体循环。
这三者的循环构成了整个推荐系统数据中必不可少的三类特征,而在日常使用中,这三类特征也是最常见,最需要先入手的三类特征。
针对这三类特征的介绍,在下问题根据不同来源进行分类中进行详细介绍。
1.2 行为漏斗
行为漏斗是推荐系统数据构建过程中必不可缺的一个部分。因为这部分信息天然的将我们需要的特征做好了正负样本的区分。
在线上推荐系统环境下,用户的行为漏斗根据具体场景不同分成了曝光、点击、收藏、加车、购买、不喜欢、屏蔽等等信息。当然,我们最常用是下面几种:
曝光:
曝光特征行为在线上推荐系统中,是必然会发生的一种行为。
当用户出现在我们的环境下,曝光的行为就已经发生了。这种行为是推荐系统数据中最基础也是最大量的组成部分。
点击:
点击行为使用户在线上环境中自主发生的一种正向行为,这种行为代表了用户对当前物品的感兴趣的程度要高于其他没有发生点击行为的物品,是推荐系统重常用的正样本来源之一。
2. 特征
推荐系统的特征有多种分类方式,包括根据不同的来源进行分析,根据生成逻辑进行分类等等。
2.1 根据不同来源进行分类
根据不同的来源进行分类主要是从特征的生成方来区分特征,这是特征天然的区分方式,而且是大部分推荐系统环境下必然可以进行的分类方案。
根据这种方法,可以将特征分成用户,物品,环境(也叫上下文)三大类。
2.1.1 上下文特征
上下文特征主要是指用户在推荐系统的环境下发生行为时的环境信息。从这一段描述中我们可以看出,上下文特征其实也可以分成两大类,其一:时间上下文特征;其二:空间上下文特征。
时间上下文特征
- 热门物品的相关时间
- 季节属性的影响
- 商品生命周期
- 用户兴趣变化
- 站点、环境的生命周期变更
空间上下文特征
- 行为发生的位置
- 站点页面展示位置
- 具体的物理空间位置(ip、经纬度等等)
- 行为发生时的环境信息
- 当前页面的关联信息
- 当前页面的具体位置
- 用户来到当前页面前的行为路径
- ···
2.1.2 物品特征
物品特征主要指的是能够从各个角度对商品进行恰当描述的信息和特征。
通过这些描述,我们能够对物品有一个基础的认知,能够通过当前认知将不同的商品进行区分,同时又能够将具体相同信息的物品有一个鉴别的逻辑。
- 物品的标题
- 物品的描述信息
- 物品的类目表述
- 物品的各类统计特征
- 物品的图像
- 物品的作者、提供商
- ···
2.1.3 用户特征
用户特征和物品特征类似,主要是为了对当前系统面对的用户进行多维度的区分和认知。
同时,因为用户是行为的主动发起方,同时也是推荐系统中的重中之重,所以为了能够清晰的认知到不同用户之间的区别,恰当的构造用户特征也是特征构造过程中极为重要的一点。为了完成这种需求,用户特征需要从各个方面进行构造和处理。
- 用户基础描述(用户的年龄、性别等基本信息)
- 用户的兴趣偏好
- 用户的兴趣变化
2.2 根据生成逻辑进行分类
2.2.1 单值特征
单值特征,指的是一般情况下的离散特征,多是来自于一些环境和用户的静态特征,比如用户的性别,当前网络状态是否是wifi等等。
这一类特征相对而言比较简单,因为取值唯一,多用1
来表示该特征存在,用0
表示该特征不存在。
2.2.2 多值特征
多值特征是相对单值特征而言,特征项的取值部分有多个选项的特征,该类特征在上线文特征、物品特征、用户特征里都有存在,是推荐系统中较为常见的特征类型。比如:当前网页环境的页面标识,用户的年龄段、物品的标题、描述等等。
多值特征在使用过程中很难直接利用,因为伴随着特征生成过程中可能存在的各种问题,多值特征开会存在不同的缺失、异常等问题。随之衍生的针对特征的处理技巧也是推荐系统特征工程中的一大难题。
2.2.3 统计值特征
统计值大多是从原始特征基础上经过数数学统计之后得到的一些数值类特征,这些特征能够很好的展示某个基础特征的指定维度组合信息,能够给到模型很好的先验信息。
2.2.4 序列特征
序列特征大多是和用户的行为强绑定在一起的一种特征信息。这一类特征表示了用户的近期兴趣变化情况。