推荐系统“体检”：如何评估推荐系统的“健康”状况？

编辑：010 时间：2020-02-21

推荐系统从海量数据中挖掘用户喜欢的内容，满足用户的需求。要想做到“千人千面”的同时，又能做到“精准推荐”，一个健康的推荐系统是必不可少的。

就像为了自己的健康去体检，推荐系统也有自己的健康指标，不同的业务、不同的场景、不同的阶段都有不同的指标，所以选择好的评估指标以及合适的评估方式，才能让推荐系统更加“健康”。

AB测试

在线评估通常会结合AB测试，当有新的算法或者策略上线时，通过AB测试，在同一指标下，对比新旧算法的差异，只有当新算法有明显优势时，才会取代旧的算法。

AB测试的本质是对照试验，其来源于生物医学的双盲测试，通过给两组病人不同的药物，来确定药物是否有效。

在推荐系统中，AB测试也采用了类似的概念：将不同的算或者策略，在同一时间维度，分别在两组或者多组组成成分相同的用户群体内进行线上测试，分析各组的用户行为指标，得到可以真正全流量上线的算法或者策略。

AB测试应该怎样进行呢？其中最重要的是“控制变量”、“分流测试”和“规则统一”。

控制变量：AB测试必须是单变量的，变量太多，变量之间会产生干扰，很难找出各个变量对结果的影响程度。在推荐系统中，AB测试的唯一变量就是推荐算法或者策略。

分流测试：AB测试作为对照试验，自然有实验组和对照组。通常状况下会对用户进行分流，很多用户都会访问同一个app或者web多次。所以根据用户进行分流是一个很好的方案，在对用户进行分流时，可以通过用户ID，设备号或者浏览器cookie。

对于未登录用户来说，跨设备访问app或者web，就会产生不同的标识。所以对于未登录用户，最好能保持实验组和对照组有相同的比例。

不同的用户在一次浏览过程中，体验的应该是一个方案，同时需要注意不同流量之间的人数，大多数情况希望所有用户平均分配。

规则统一：在控制变量和分流测试的前提下，针对不同的流量，应该制定相同的评价指标，才能得到准确的对比效果。

作者：达观数据，原文链接：http://www.woshipm.com/pd/3409316.html

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

回复列表