学以致用:光棍极客通过大数据搞定女朋友

2014-1-24 15:08| 发布者: joejoe0332| 查看: 3306| 评论: 0|原作者: Arron、毛梦琪|来自: CSDN

摘要: 　　马上就要过年了，又要回家面对各种七大姑八大姨的催命问题，相信对于广大的宅男极客来说——“找女朋友没有？”已经被选为最不受欢迎的一句话了。其实在这个大数据时代里，我们生活在一个充满“数据”的世界，找 ...

　　MauricoAlejo 从一个数学家的角度来说，Chris McKinlay的故事非常独特。他在波士顿郊区长大，2001年从明德学院毕业，大学本科获中文学位，同年8月到纽约世贸大厦91楼作汉译英，五周后世贸大楼倒塌（ McKinlay那天下午两点才上班，侥幸躲过了911爆炸）。“后来我问自己，我到底想做什么？”他说，当时哥伦大学毕业一个朋友招募他加入MIT的决战21点队员，接下来的几年他往返于纽约和拉斯维加斯，曾一年从拉斯维加斯赢得6万美金。

　　经历了这些事情，他对应用数学非常感兴趣，因此爱上了数学并读了数学博士。他说：“他们的数学天赋可以适用于许多不同的情况。他们可以看到一些新的扑克游戏，然后回家，写一些代码，并想出一个策略来战胜它。”

　　现在他将这种模式搬到了寻找爱情的过程中。首先他需要数据。他建立了12个OkCupid账户，写了一个Python脚本管理它们，同时也没有忽略他的论文。程序脚本将会收集他的目标人群（年龄在25-45之间的异性恋以及双性恋女士），从这些女士的个人页面上搜集所有可能用到的数据：种族、身高、是否抽烟、星座等等。

　　为了得到这些数据，他不得不做一些额外的工作。OkCupid中只有你回答别人的问题，你才能看到别人的信息。McKinlay用机器人回答一些简单的问题，他没有使用一些虚假的信息来欺骗这些女士，因为答案对他并不重要，他并不是想要吸引这些女生，他只是想把这些女生的回答收集到自己的数据库中。

　　McKinlay非常满意他的机器人的工作成果。然而在他收集了一千个资料后，他遇到了第一个障碍。OkCupid有一个系统专门来防止这种机器的数据搜集行为，不断的将他的机器人账号禁止。

　　他必须试着让这些机器账户模仿人的行为动作

　　他将目标转向了一位向他学习高等数学课程同时教他音乐理论的朋友 Sam Torrisi，Torrisi 是一位神经学家。Torrisi也经常使用OkCupid，Torrisi同意在他的电脑上安装间谍软件监控自己在网站的运动轨迹和数据。同时McKinlay通过编程让机器人模拟Torrisi 的点击速率以及打字速度。McKinlay又从家里带来一台电脑，通过数学系的宽带，保证一天24小时不间断的运行。

　　三周后他已经收获了来自全国各地2万名女性的600万个问题。随着数据挖掘的深入，McKinlay完全将他的论文抛至一边，他本来就很少在公寓睡觉，现在基本上就完全放弃了，搬到了工作的地方，睡觉的时候在办公桌上铺上一层薄薄的床垫。

　　按照McKinlay的计划，他必须要在这些统计的数据中找到一种根据这些女生的相似性进行大致分组的方式。McKinlay在修改贝尔实验室一个名为K-Modes的算法时得到了灵感。这个算法第一次在1998年用于分析生病的豌豆谷物，它使用分类数据并且把数据整合堆积。通过微调，设备可以调节出结果的速度，得到自己想要的方式。

　　他调整刻度，找到了一个平衡点，这个点上20000个女人根据她们的问题和回答能够在统计上分为7个清晰分离的群。“我太高兴了”，他说，“这真是6月最好的一天。”

　　用这种方式，McKinlay又搜集了另外5000个女生的样本，她们都来自洛杉矶和旧金山，最近刚刚在OkCupid上注册。这些样本经过K-Modes的处理也大致分布在7个组里，McKinlay的统计样本奏效了。

　　现在McKinlay只需要确定哪个组的女生更适合自己就行了。他大概看了一下这些女生的简介，有一组女生年龄太小，两组年龄太大，另外一组是虔诚的基督徒。他发现有一组女生大多在20几岁，多数看起来很独立或是音乐家和艺术家。McKinlay认为自己或许能在这组中找到真爱。

　　实际上，还有一组女生看起来也很不错，她们年龄稍大，从事编辑和设计等有创造性的工作。McKinlay决定在这两组女生中寻找目标。他建立了两个个人档案，一个用于A组，一个用于B组。

　　McKinlay研究后发现，两组女生都对教学这个话题很感兴趣，所以他将自己定位成一个数学教授。他将这两个集群中最受欢迎的500个问题进行收集然后填写他自己最真实的答案。因为他并不想让自己的未来建立在计算机自动生成的谎言之上。但是他会让电脑分析出每个问题的重要性，通过机器学习算法，提供一个最佳的权重。