用子空间聚类方法进行区分 在数学上,这是一个子空间聚类问题,解决这类问题也存在几个标准的方法。Zhang和他的同事将这些方法一一应用到前面说的600个账号上,找出效果最好的那一种方法。 然后,他们将这个表现最好的方法应用到第二个数据库上。结果,他们的算法将55000个账号中的37000个标记为单使用者账号,15000为双使用者账号,3000为三使用者账号。 这样的划分结果是否正确我们无从考证,因为我们不知道实际情况究竟是怎样的。但是,我们可以转而研究这些被标记为多用户的账号,看看他们是不是合理。“这些被标记为多用户的账号表现出了一些有趣的性质”,Zhang和他的同事说。 比如说,他们发现在许多账号中同一个电视台的续集和季播剧被聚类在一起。他们还发现,多使用者账号的一个使用者可能被标记为“Science Fiction and Fantasy”,而另一个使用者可能被标记为“Romantic”。这样的发现给了Zhang和他的同事信心。 系统推荐的最终方法 最后的问题是,一旦算法发现多人共享一个账号时,什么样的推荐才是合适的。答案非常直接,选取每个使用者最有可能接受的几个推荐,将这些推荐组成一个表单显示。 尽管还不清楚新提出的这个方法比传统的推荐算法好多少,甚至不知道是否比传统方法好。至少,这个方法充满新意。 有趣的是,Zhang和他的同事指出,可以让一个单使用者账号看起来像是一个多使用者账号,方法是向这个账号中故意加入一些使用者不可能做出的评级信息。“向一个账号中加入额外数据,以达到模糊某些信息(比如说性别)的目的,这是一个有趣的课题,”他们说。 在未来的某个时间点,或许我们会看到这项研究的成果。 转自:http://code.csdn.net/news/2821490 |