生成式概率语义模型LDA(NLP与推荐 三)

生成式概率语义模型LDA

L(Latent 隐语义)D(Dirichlet 核心分布)A(Allocation 权重分配)

核心思想:文档生成主题,主题生成词,这些概率都是生成的,不是固定的

优点

  • 参数不随着文档数增长而增长:KV+KM => KV+K
  • 不易过拟合:plsa本质是记住了每个文档的主题分布
  • LDA是学到了文档下主题分布的可能的概率


生成过程

图片文字说明


生成式模型的优点:掌握了更深层次的信息;自然容纳未见数据;通过吉布斯采样快速得到新文档的主题分布。参数更少,词的数量不会无限增加;更稳定的结果LDA,贝叶斯平滑。



LDA的应用实例:

相似度计算

文本相关性算法,取两个文档的topic分布向量计算相似度。使用余弦相似度或者KL Divergence & Jenson-Shaonnon Divergence。

排序特征

用户&物品标签

  • 一个用户对一个标签词的感兴趣程度:一个用户对文档的感兴趣程度,看这个文档下主题的重要性,再看词重要性
  • 启发式规则,选取用户行为最多的topic--》取到改topic下比较多的词
  • 应用:推荐理由(这个物品有哪些标签,所以我们推荐给你)
  • 个性化推送,先找出这个用户最感兴趣的top word,再去用这些词去召回物品去推送。

计算主题的重要性:主题重要性各不相同

  • 主题1【教育,学习,读书】
  • 主题2【第一册,第二册,第三册】
  • 主题3【人民教育出版社,高等教育出版社】
如何度量:
  • 去计算每个主题对于不同文档的忠诚度
  • 也就是信息熵,信息熵越小---主题质量好,只出现再教育相关的文档中;信息熵大,说明出现在很多类型的文档中。

欢迎技术探讨