马上就要过年了,又要回家面对各种七大姑八大姨的催命问题,相信对于广大的宅男极客来说——“找女朋友没有?”已经被选为最不受欢迎的一句话了。其实在这个大数据时代里,我们生活在一个充满“数据”的世界,找个女朋友真的很难么?有的人可能说了“天天大数据,大数据能帮我找女朋友么?”回答是肯定的,有了“大数据”的帮助,找女朋友的成功率会高很多。请看来自美国的Chris McKinlay给我们分享的经典案例:如何通过大数据找到你的另一半! 以下为译文: 在加州大学洛杉矶分校数学楼5层的一个阁楼里,显示器上闪烁着微弱的灯光。Chris McKinlay正在使用罗拉多州超算为他博士论文(大规模数据处理和并行数值方法 )做实践,而凌晨三点却是能压榨这个计算机资源的最佳时间,他打开了第二个窗口——OkCupid(美国在线约会网站的领头羊 )的收件箱。 McKinlay, 35岁,体型偏瘦,一头蓬乱头发的中年男子。在4000万通过Match.com、J-Date、e-Harmony这些网站在网络上寻找浪漫的美国中,他是非常不起眼的一个。自从去年分手以后,他已经在网上搜索了9个月,可惜毫无结果。他已经给几十个OkCupid网站推荐为潜在配偶的女性们发去了自我介绍信息,但大部分都被忽略了。同时他只去过为数不多的六次约会中的一次。 2012年六月的那天早上,电脑一个窗口显示着编译器正在处理的代码,而另一个显示着被遗弃的约会资料,他突然醒悟到,自己做错了。他一直把自己当做一名相亲对象来在网上寻找其他用户,这样做是不对的,他意识到自己应该像一个数学家一样去约会。 OkCupid由哈佛大学数学专业人士创办于2004,首先吸引交友者的是因为他的相亲对象是通过计算方法来自动匹配的。成员通过回答一系列的问题进行匹配,比如政治、宗教、家人、爱、性f和智能手机。 平均而言,用户从问题库中选择350个类似于“下列哪个最有可能吸引你去看电影吗?”或“宗教/上帝在你的生活中有多重要?“这种问题。通过对每一个用户问题答案的分析寻找和他们问题答案相近的异性伴侣,同时将这些用户从“毫无关系”到“特别亲密”分为5个等级。OkCupid的匹配引擎使用该数据来计算一对夫妇在一起是否合适,得分越接近百分之一百,证明他们是一对越好的灵魂伴侣。 但是推理一下,在洛杉矶,McKinlay与女性的匹配度简直是糟糕透顶。OkCupid的算法只使用两个潜在的选择决定回答问题,以及相匹配的问题(或多或少随机出现),并不能正确的体现出一个人的内心。当McKinlay 查看他匹配对象的时候,发现相互匹配额超过百分之九十女性不超过100个。要知道在洛杉矶这个城市大约有200万女性(在OkCupid上也有8万女性),而从McKinlay的匹配结果和影响来看,他几乎就是一个隐形人。 McKinlay意识到他必须提高这个数据,通过抽样统计,McKinlay可以确定哪些问题关系到他喜欢的那种女性,他可以针对这些问题建立新的“形象”,从而去匹配洛杉矶中所有适合他的女性,而忽视其他人。 Chris McKinlay使用Python脚本快速调取了大量OkCupid的调查问题,然后他将女性约会者分为七个维度,比如“Diverse” 、 “Mindful”,每个都有自己的特点。 |