个性化推荐系统是一门由数据挖掘和机器学习综合的学科,它必须能够基于用户之前的口味和喜好提供相关的精确的推荐,而且这种口味和喜欢的收集必须尽量少的需要用户的劳动。本文主要介绍了如何基于内容和用呢画像实现一个个性化推荐化系统。
根据内容和用户画像的个性化引荐,有两个实体:内容和用户。需求有一个联络这两者的东西,即为标签。内容转换为标签即为内容特征化,用户则称为用户特征化。
因而,关于此种引荐,首要分为以下几个要害部分:
- 标签库
- 内容特征化
- 用户特征化
- 隐语义引荐
归纳上面叙述的各个部分即可完成一个根据内容和用户画像的个性化引荐体系。如下图所示:
标签库
标签是联络用户与物品、内容以及物品、内容之间的枢纽,也是反响用户爱好的重要数据源。标签库的终究用处在于对用户进行行为、特点符号。是将其他实体转换为核算机能够了解的言语要害的一步。
标签库则是对标签进行聚合的体系,包含对标签的办理、更新等。
一般来说,标签是以层级的方法安排的。能够有一级维度、二级维度等。
标签的来历首要有:
- 已有内容的标签
- 网络抓取盛行标签
- 对运营的内容进行要害词提取
关于内容的要害词提取,运用结巴分词 + TFIDF即可。此外,也能够运用TextRank来提取内容要害词。
内容特征化
内容特征化即给内容打标签。现在有两种方法:
- 人工打标签
- 机器主动打标签
针对机器主动打标签,需求采纳机器学习的相关算法来完成,即针对一系列给定的标签,给内容选取其间匹配度***的几个标签。这不同于一般的分类和聚类算法。能够采纳运用分词 + Word2Vec来完成,进程如下:
- 将文本语料进行分词,以空格,tab离隔都能够,运用结巴分词。
- 运用word2vec练习词的类似度模型。
- 运用tfidf提取内容的要害词A,B,C。
- 遍历每一个标签,核算要害词与此标签的类似度之和。
- 取出TopN类似度***的标签即为此内容的标签。(N这儿取3)
用户特征化
用户特征化即为用户打标签。经过用户的行为日志和必定的模型算法得到用户的每个标签的权重。
- 用户对内容的行为:点击、不敢爱好、阅读
- 对内容产生的行为能够以为对此内容所带的标签的行为
- 用户的爱好是时刻衰减的,即离当时时刻越远的爱好比重越低。时刻衰减函数运用1/[log(t)+1], t为事情产生的时刻间隔当时时刻的巨细
- 要考虑到抢手内容会干涉用户的标签,需求对抢手内容进行降权。运用click/pv来下降抢手内容的权重
隐语义引荐
有了内容特征和用户特征,能够运用隐语义模型进行引荐。这儿能够运用其简化方法,以到达实时核算的意图。
用户关于某一个内容的爱好度(能够以为是CTR):
其间i=1…N是内容具有的标签,m(ci)指的内容c和标签i的关联度(现在都为1),n(ui)指的是用户u的标签i的权重值,q©指的是内容c的质量,暂时运用点击率表明。