齐彦杰：机器学习在新浪微博个性化push的使用-人工智能-知优网

新浪微博不仅仅是一个信息交流平台，同时也兼具着媒体属性，据统计2013年12月新浪微博MAU(Monthly Active Users，月活跃用户数量)达到1.29亿，DAU(Daily Active Users，日活跃用户数量)超过6100万，到2018年3月，MAU突破4.11亿，DAU达到1.84亿。

【51CTO.com原创稿件】新浪微博不仅仅是一个信息交流平台，一起也兼具着媒体特点，据统计2013年12月新浪微博MAU(Monthly Active Users，月活泼用户数量)到达1.29亿，DAU(Daily Active Users，日活泼用户数量)超越6100万，到2018年3月，MAU打破4.11亿，DAU到达1.84亿。据2017年数据统计，微博的首要用户会集在23-30岁，占38.6%，性别上男性多于女人，占56.3%，而用户爱好首要会集在明星、美人帅哥、动漫等泛文娱范畴。

这么巨大的用户体量和广泛的爱好标签，怎么做才干将用户感爱好的论题、博主、工作***时刻进行精准推送，是新浪微博一向要处理的工作，个性化push的运用将精准推送这项事务变的短时高效。

图1 新浪微博齐彦杰

博文质量、算法模型与分发功率一起决议push作用

在完成个性化push之前要先构建一个引荐体系，一切的引荐体系基本上都是从内容源头中去找到用户喜爱的东西，微博的源头便是全量的原创博文。可是面临每天几千万量级的生产量和很多不适宜的原创文章，怎么才干将精准推送这个诉求变现呢?人工挑选加机器挑选是个不错的组合。在push推送进程中参加人工审阅程序，能够下降涉黄、不健康、不适宜内容的传达，一起还减少了对用户的打扰。

物料召回模型只是在源头处掌握了原创博文的挑选，怎么才干将优质文章引荐给感爱好的用户呢?这就需求排序算法模型了。首要，将物料生成模型进行审阅，挑选出全量优质的内容，放到物料池中，而且物料池要实时更新互动特征，比方，这个微博在当时的时刻点的转发量和谈论数等。更新今后，每分钟提取当时可用物料和用户，进行核算和排序，从中挑选出客户最感爱好的博文，***发送给用户。其实，在咱们的引荐体系中，和模型核算平行的还有一个协同引荐服务。有一些引荐体系中把协同引荐作为一种召回的方法，把协同引荐发生的内容放在物料召回的部分再做引荐。可是在咱们的场景中，协同引荐作用好于排序模型，所以没有必要再走一遍程序，能够直接发送给用户。通过根底过滤下发，实时搜集下发日志和点击日志，通过数据处理和加工，再去更新物料池，一起更新物料生成模型和运营审阅部分。

图2 引荐体系

机器学习的特征维度树立

在排序战略、模型服务、特征工程、根底数据的全体架构下有博文信息、用户信息、行为信息等，运用这些信息在上层挖掘出特征，运用特征进行模型练习和评价，得出排序模型和物料模型。当有了模型之后，再把模型运用到线上做排序战略、CTR预估。***，将线上的数据再传导回来，进行根底数据核算，供下一次模型练习迭代。

爱好维度

可是，关于一个博文来说，特征构建的时分需求通过一个三级标签体系来具像这个博文代表的含义，以及通过用户对博文的阅读程度来出现用户的爱好，这时就会树立一个三级标签体系，首要***级标签是比较广泛的，比方说体育范畴，一级标签下面会有二级标签，比方：足球，二级标签下面会有三级标签，比方：梅西、C罗。当一个用户消费了多个打上梅西标签的博文的时分，咱们就知道这个用户对梅西感爱好，所以，当有一个梅西的物料进来的时分，就会用到这部分特征，参加到模型中进行练习，再推送给爱好用户，这个便是爱好维度。

图3 爱好维度

联系维度

爱好维度是一个用户对爱好范畴的特征描述，可是假如想把博主与用户，也便是人与人之间的特征描述参加到模型傍边，就需求联系维度了。当一个博主和一个用户在历史上的互动十分高的话，那么这个博主一定是符合这个用户的需求的，所以他们的联系也能够作为一个维度特征参加到模型傍边。

实时维度

将爱好维度、联系维度参加到模型的一起，还需求将先验数据传导回来，这时分就需求实时维度的协助。由于Push场景用的物料相对少一些，一起曝光时机也特别少，而点击率就能够作为先验数据传导回来，导入到模型中。

除了以上三种维度，还包括环境的维度，推送的时刻、设备的网络信息、设备自身的信息等等。

介绍完特征部分之后，再讲一下模型演进的进程。晋级从LR(Logistic Regression，逻辑回归)模型开端，LR模型基本上比较难以捕捉用户的组合特征，所以进一步晋级到FM模型。FM( Factorization Machine，隐因子分化机)模型是LR模型加上Dense(密布化)的两两特征组合。每一个两两组合特征，需求有一个权重Wij，假如直接求Wij，由于特征组合会形成样本过少，导致Wij不精确，所以是通过因子Vi，Vj相乘的方法来得到Wij。可是，FM模型只做了两两组合特征，所以又晋级成了wide&deep模型，通过把wide模型和deep模型进行组合，既保留了wide模型里边的回忆才能，又有一些高档特征组合模型的才能，使这样一个模型能够有更强的体现才能。

图4 Wide&deep模型

Push在运用中的实用技巧

运用用户频次(频率+次数)拆分进步点击量和点击率

微博运用中用户的频次差异很大，因而要将用户的频次进行拆分，别离练习高频次、中频次和低频次的用户，所以需求在负样本的挑选上做一些改动。

在服务器推送的时分，会遇到用户设置体系不提示新消息的情况，也会遇到用户不看新消息的情况，所以，在挑选推送用户的时分，尽量选取历史上有过正样本的用户，这样，用户在取得正样本复发的时分，在正样本上下几条曝光(其间包括两条负样本)，就能够进步点击量和点击率。

逐层操控下发物料

假如一个物料在没有通过充沛验证的情况下，就对一切的人进行核算，或许由于某一个特征特别高的时分，使下发发生过大，这样或许把一个低质物料展示给过多用户。所以首要要在一个特别小的规模内进行测验，假如点击率到达预期，则会逐步一层一层扩展，直到放到全量。这个方法，能够操控低质物料下发规模，一起把曝光时机让给通过充沛验证的优质物料。

以上内容是51CTO记者依据新浪微博齐彦杰在WOT2018全球软件与运维技能峰会的讲演内容收拾，更多关于WOT的内容请重视51cto.com。