推荐算法相关特征工程(推荐系统 知识十二)

常用方法:数值特征缩放

数值特征缩放:数值:商品价格。数值大的话会导致模型收敛速度变慢,特征参数无法横向对比。

一般采用标准化,缩放后为均值为0,方差为1。

或者采用最小最大缩放,min-max,随访到0-1之间,保持线性关系。

或者采取百分位缩放,保持排序,但是失去数值间隔信息。


离散化(非线性)

如:收入区间,一般采用:等频、等宽、决策树(通过单特征进行训练)


特征组合(引入大量非线性关系)

如:职业 * 性别:女程序员,男程序员

或者推荐系统中的:用户ID * 物品标签 或者 用户标签*物品标签


如何处理稀疏特征:特征只能覆盖很少一部分样本,导致训练不充分。

通过降维解决稀疏性:业务方法(单品到类别,标签到类别)算法降维(LDA,PCA,embedding)


位置偏差

位置占优的物品点击率高,无论质量如何,点击率=f(物品相关性,位置)

在计算这些物品的时候,需要加入位置参数进行惩罚,但是模型预测的时候假设所有样本都公平相待。


最后:

特征重要性也可以用来指定业务规则,不一定需要来做预测。

是否特征重要的排序能符合预期。


欢迎技术探讨