技术人攻略:社交网站如新浪微博的活跃度在下降,会不会对产品造成影响?
陆丹峰:不会。我们其实是做一个数据处理的架构,针对不同的平台会有不一样的数据获
取方式,和数据源的关系不大。除了社交媒体之外,我们还会抓取一些视频媒体、电商媒体的数据。永远不要为数据担心,因为数据在五年以后,你不知道它会有什
么样的变化。五年以前我们有这么多数据吗?根本没有。你现在觉得拿不到什么数据,以后的数据会越来越多。
技术人攻略:你们的系统在数据的获取、清洗、处理、呈现这几个环节,哪块你感觉比较有技术挑战?
陆丹峰:技术挑战是在流式处理的环节里,要加入很多的元素进去,通过数据之间的关联
关系增强数据。如何增强呢?当从社交平台上拿到某一条数据的时候,里面可能有一个ID及这个ID说了什么话。但是并不知道ID背后的这个人是什么样的,我
们会增强它。首先我们会找到ID背后是什么样的人,把性别、年龄,或者其他的数据算出来,这是一部分增强;第二是把他说的这句话做语义分析,让这条信息获
得更多的含义,比如说包含什么样的主题和情感。
对于不同网站的数据,我们还考虑到数据之间的Map映射,通过Cookie、帐号、或者用户信息做关联匹配。比如说在微博上的用户名、邮箱、生日等信息,可以和豆瓣上的信息一起做相似度匹配,计算出来是否是同一个用户。
做大数据分析的门槛,一方面是要有构建大型系统的经验。大型系统有非常高的并发,非常大的数据量,要能预见到问题在什么地方,在什么样情况下有什么样的问题,用什么样解决方案,这个难点已经把大部分人挡在外面了。第二个难点,要能够运用数学知识。大数据涉及的机器学习、自然语言处理都逃不过数学,算法里的分类、聚类、预测、回归,无非都是数学。在什么样的场景下,用什么样的数学模型,调一个什么样的参数,这又把好多人挡在外面。
技术人攻略:之前参加业界的一个会,讨论关于组建一个大数据团队需要多少钱。来自电商企业的一个技术经理认为,30个人左右的团队,加上几十台机器,一年至少需要投入一千万。你怎么看这个问题?你们团队有几个人?
陆丹峰:需要几个人跟你做的事情和跟用什么样的人有关,Instagram
1.5亿用户的时候,技术团队才6个人。如果一个人能力抵几个人,那要不了那么大的团队。我在上一家公司搭建了完善的大数据离线和流式处理系统,每天大概
有十几亿数据量的采集,50个Hadoop节点,可真正负责核心数据采集和Hadoop运维的人不超过四个。
对大公司来说人多好办事,可我觉得小而美反而会更好。Google的
Analytics这个产品,最初始的原型就是一个印度人开发的。人不在于多,而在于精。你用什么样的方式去解决这个事情决定了时间和成本,有很多问题的
解决方案有很多,但有一条方案有可能是最合适的、最省时间的、最便宜的,但是往往很多人找不到这样的方法。你能根据自己的经验和知识构建出好的解决方案,
你就值得比其他人获得更多的回报。
我们团队加上我自己才四个半人,一个产品经理、一个做大数据的、一个算法工程师,半个是我们的在校实习生。他们的技术和知识面都非常广,并且数学功底都比较深。
技术人攻略:大数据技术很火爆,市场究竟需要具备什么技能的大数据人才?
陆丹峰:市场肯定是缺大数据处理的人才的,但我说的是“人才”。现在也有培训公司在
做大数据培训,但培训出来的那不叫人才,叫技术工人。培训公司教的就是Hadoop怎么搭、MapReduce怎么写,这种东西其实用不着培训,善学的人
看看网上的资料就可以做了。真正的人才是理解数据的人,核心在于掌握大数据处理的思维方式。分布式处理技术老早之前就有了,自己写一套架构就可以实现,只
不过Hadoop架构让这种服务变得非常便捷和廉价。
大数据的思维跟平常处理数据的思维不一样。几个重要的变化包括:用全量数据代替采样、通过寻找相关性代替寻找因果关系、拥抱杂乱无章的数据。这几点总结来自《大数据时代》那本书,引用一下。
采样的方法很难保证随机性,而且一旦采样采错了,最后的结论就是失之毫厘,谬以千
里。用全量数据则没有这个问题。直接的因果关系往往难以找到,而相关关系比较容易挖掘,并且相关性也多种多样,比如强相关弱相关、正相关负相关、线性相关
非线性相关等,都是我们日常中要经常遇到的。第三是使用各种各样的杂乱无章的数据,例如PC的、手机的、穿戴式设备的、脑电的,及线下的数据,你要想办法
把他们揉杂在一起。数据越多,你描述一个东西就变得越丰富,越有可能接近真实的情况。
技术人攻略:对于想进入大数据领域的人,除了思维上的变化,在技能上需要做什么准备?
陆丹峰:技能方面最重要的是理解两点,第一是跟底层操作系统相关的方方面面,第二是数据处理的一些基本算法。
现代的技术逃脱不了操作系统相关的知识,分布式的算法也是一样,无非是把一些任务拆解分到不同的机器上,让不同机器上的数据在本机运算,然后再传回去而已。当你对操作系统各项东西都理解了,比如内存、进程、IO都弄清楚了,你就是一个很好的架构师,在当前技术领域里就没什么太大的难事,大数据在你面前就灰飞烟灭了。
市面上很多技术人员对IO的原理都搞不清楚,IO模型有几种,Windows用什么
样的模型,Linux用什么样的模型,一台机器如何应对那么多的请求访问,高并发到底怎么实现,一个请求怎么产生的,在服务端怎么处理的,最后怎么返回给
用户的,整个的环节操作系统是怎么控制的……而且很多小朋友对于算法复杂度,也是搞不清楚的。我实现一个东西,最低的算法复杂度是多高,都是可以计算出来
的。
这就是你的知识体系问题,我们的教育体系在教的时候,没有特别好地让学生把这些做
IT,做互联网最基本的知识学到脑子里。一些人在写代码的时候,用的逻辑简直非常可笑,不是严谨的,不是最精简的,不是一个合理的逻辑,只是实现了一个功
能而已。为什么这些人找不到很好的方式去提升自己?或者学了一门新的语言就很得意。其实这一点意义都没有,语言可以在一天之内就学会,但如果不去关注这个
语言为什么会产生,这门语言解决的问题是什么是没用的。他们的思维方式,需要经过磨炼才能够达到一个新层面。
第二就是数据处理的一些最基本的算法,做互联网要用到的算法包括分类、聚类、回归、协同过滤、推荐等。至少要去学一学,去了解一下,在什么情况下,我应该用什么样的算法去实现一个什么样的东西,这些都是在做数据处理的时候非常重要的。
技术人攻略:你先后几次搭建新的技术团队,这个过程困难吗?你挑人的时候看重哪些方面?
陆丹峰:搭建新团队的过程一般需要一两个月,因为搭建之前就对团队的目标和所需的技能心里有数了。核心团队主要来自于一些志同道合者,已经建立了非常好的信任关系,所以比较容易一起共事,在这个基础上再慢慢寻找其它成员。
上一家公司的研发团队接近100人,我面过几百个人。挑人的时候我主要看两方面。第
一是人品、态度和为人处事,品格要端正,待人接物要懂礼貌。因为一旦要去做一些大的事情,必然要求这个人是很大气的,一个团队的短板,决定了一个团队能走
多远,一个大气的人,一个心胸宽广,一个很沉着冷静的人,必然能做大事。而且往往在危机的关头,他也知道怎么去做,他也能挺过去。
第二点这个人一定要足够的聪明,学东西一定要足够的快,这方面通过交流过程中观察他的思维和逻辑来判断。通过一个人说话的方式,组织语言的方式,基本可以看出他平时怎么思考,他有没有在思考,他以前有没有思考过这些问题。
举个简单的例子,比方说我会问:你是怎么学语言的?有些人会说,就是把语法看一遍,
习题做一做,然后就上手开始做东西,这些人往往有可能就是把一个经验用了好几年。另外一个人会说,我要先去了解这门语言,它是怎么产生的,为什么存在,它
的特性有哪些,它适用于哪些场景,它有什么样的数据结构,它是一个函数式语言,还是面向对象的语言。如果面试者跟我谈这些,这个人的思维模式就对路子了,
说明他在更高的层面上去看这件事,这种人往往具备较强的解决问题的能力。创业团队要面临着很多特殊的情况,不可总是让老大冲在前面,每个人都要有解决问题
的能力。一个人的思维模式就代表了他是否具有处理问题的能力。
我会从各个层面去了解候选人,反而技术问题会谈得非常少,因为技术都是可以教的,但
为人处事,或解决问题的能力是很难教的。一个热爱运动的人身上往往会有拼搏精神,有兴趣爱好说明他能长期坚持做一件事情。我现在的团队人,每个人都有自己
的爱好,但是唯一最重要的一点,他们都有一颗善良的和包容的心。当然,在上家公司招聘的人里,有10%的人还是招错了。百分之一百把人看准了,这是不可能
的。
招聘的时候还遇到有一类人,是来自大公司的求职者。大公司的毛病往往在于,一个人就
是一颗螺丝钉,这些人往往只会一个工具,在公司只做一件事情,工资还不低。他们换工作的原因是觉得无聊,必须要成长,不能在一个地方做两三年都做同一件事
情。但是想摆脱这种困境需要做好准备,没做好准备怎么往上跳呢?所以在大公司工作一定要注意提升自己的视野和技能,这对长期成长来说,是非常重要的事。
技术人攻略:你在广告领域做了这么多年,从行业大趋势和技术两方面,这个行业从你08年进去到现在有什么样的变化?
陆丹峰:从08年开始,在线广告变得越来越火,这中间经历了视频网站、SNS、微
博、电商的崛起,广告在这里面扮演了很重要的角色,每年有几百亿的市场在里面。虽然跟传统的广告相比还是很小的一块,但它的比重在变大,并且形式变得丰富
多样,不仅仅是图片、文字、声音,还有地理位置,很多新东西在进入广告这个领域。互联网广告不停改善的目标,一方面是把营销变得更精准,另一方面是把广告
变得不是那么突兀,而是以一个非常的自然的状态呈现。
但中国互联网有很多急功近利和不太好的地方,比方说做广告监测的时候,我们发现很多
媒体都在作弊;还有就是媒体间竞争越来越激烈,同质化严重,例如视频网站的内容同质化,但慢慢地大家也在走差异化道路了;另外对于怎样避免广告干扰用户,
怎样避免隐私被过渡使用,这是需要我们全行业去解决的。大家应该联合起来建立一套标准,把用户服务好,而不是想着瓜分用户、抢用户、不停骚扰用户,这样只
会把这个行业毁掉。
技术的演变并没有什么特别的新的东西,但是技术在逐渐的被模块化和标准化。现在构建一个产品,已经可以根据业务的场景,用开源的服务把它搭建起来,生产力变得更加高效了,技术正变得易用、标准、开放、可拆卸。
技术人攻略:你平时的兴趣爱好是什么?
陆丹峰:早年听了很多摇滚,看了很多电影啊书什么的,算是文青。游戏打的也不少。现
在这些基本都是需要放松一下时候才碰一下。但是运动还是要坚持的,跑跑步踢球游泳什么的,逮到机会并且空气也不太差的时候就锻炼一下,身体对于创业来讲非
常重要,前几天因为劳累加吃坏了东西肠胃发炎,影响工作好几天。也可以说现在最大的兴趣爱好就是创业了,把这当游戏成就一样来看待,想想都是很兴奋有意思
的事情。
作者信息
技术人攻略访谈是关于技术人生活和成长的系列访问,由独立媒体人Gracia创立和
维护。报道内容以“人”为核心,通过技术人的故事传递技术梦想;同时以小见大,见证技术的发展和行业的变迁。在这个前所未有的变革时代下,我们的眼光将投
向有关:创造力、好奇心、冒险精神,这样一些长期被忽略的美好品质上。相信通过这样一群心怀梦想,并且正脚踏实地在改变世界的技术人,这些美好的东西将重
新获得珍视。
转自 http://www.infoq.com/cn/articles/when-mathematicians-meet-big-data?utm_campaign=infoq_content&utm_source=infoq&utm_medium=feed&utm_term=global |