如果你和别人共用一个在线电影账号的话,那么你很有可能收到一些你根本不感兴趣的电影推送,因为你不喜欢的这些类型是推送给另一个人的。也许,这一状况很快就能得到改变。 “如果一个人买了商品X,那么很有可能他会继续购买商品Y”,这句话已经成为互联网营销时代最为著名的典故之一。这句话的源头出自推荐引擎,推荐引擎就是根据你过去的购买记录,来预测你未来的购买行为的一种系统,它还可以根据和你拥有类似品味的人的购买记录来预测你接下来的行为。 好的推荐系统能够将营业额提高几个百分点。这也是为什么网店和在线服务一定要拥有一个推荐系统的原因。 通过上面的解释,我们不难理解为什么人们对于提高推荐引擎的性能一直兴趣高昂。实际上,早在2006年,在线电影提供商 Netflix 就曾悬赏100万美金,任何人只要能将他们的推荐算法修改内容超过10%的话,就可以拿走这笔巨额奖金。直到三年之后,这笔奖金才被人拿走。 那么,对于推荐引擎来说,下一个突破点在哪里? 今天,从在 MIT 工作的 Amy Zhang 和他同事的身上,我们找到了答案。他们指出,比如在线电影服务在内的在线服务上,往往是几个人共享一个相同的账号。这就意味着和这个账号相关的行为是由几个不同的人共同完成的。包括对电影的喜好,对电影的评级这些都不是单纯的一个人的行为。 他们需要面对的问题是仅仅依靠研究和账号相关的评级信息能否判断出一个账号是不是一个共享账号。如果能够,又该怎样修改推荐算法。 他们选择了两个和电影推荐有关的数据库作为测试数据。第一个数据库包含171000名用户对20000部电影的超过400万条推荐信息。对这个数据库中的600个用户账号进行分析之后,就能确定它们是不是共享账号。这600账号中,有272个账号拥有两个使用者,14个账号拥有3个使用者,4个账号拥有4个使用者。 Zhang和他的同事使用的另一个数据库是 Netflix 里面将近500000用户对超过17000部电影的评级信息。 Zhang和他的同事的着手点在于用数学方法将一系列评级信息分成不同的几个部分。我们知道,一个共享账户的使用者有多人,这些人的行为模式是有差别的,如果我们能够通过聚类的方法将这个共享账户的评级信息分成和使用人数一致的几个部分,那么,很有可能分出来的这几个部分和几个使用者之间存在一一对应的关系。 实际上,这意味着将相似的电影聚类。其中很重要的一项技术就是以高置信度将电影和用户联系起来。比如说,看过《玩具总动员》、《怪物公司》、《冰雪奇缘》的人很可能不会看过《德州电锯杀人狂》、《外星人》和《驱魔人》。 |