几周前,Hortonworks在博客上强调了雅虎这几年来对Hadoop作出的巨大贡献。这有两重含义:一、向前雇主致敬;二、证实雅虎仍然是Hadoop的主要贡献者。
这个星期初,Cloudera回复了我们的博客,称我们报道了一个误导性的新闻。虽然我们通常不回复其他供应商的博客(即使他们说了一些有疑议的事情),但我们觉得这次一定要回复。
在下面的许多文字中,他们声称Cloudera才是本年度Apache Hadoop的最大贡献者。

虽然Cloudera在过去的几个月里确实增加了他们投放的补丁数,但将补丁数作为评判一个公司对Apache Hadoop贡献的最重要指标是有误导性的。
为什么?因为根据投入的时间和工作量的不同,补丁是不同的。在贡献者不断获取经验并开始进行更复杂的任务时,他们的补丁通常会变大。一个补定可以像一个新功能或子系统一样复杂,也可以像更正文档里的一行拼写错误一样简单。通常来说,新手贡献小的修复补丁,而专家贡献需要很大工作量的复杂补丁。
我们相信代码的行数是一个重要的更为中肯的标准。虽然改正拼写错误很有用,但它远不如添加新功能或修改重大错误来得重要。
和一两行的补丁比较:
HDFS Federation:将近15000行代码 HDFS EditLogs Re-write:将近10000行代码(由Cloudera的工程师发起) NextGen MapReduce:超过150000行代码
当你了解到今年Apache Hadoop收到的补丁有将近40%少于10行后,你就会意识到,只用补丁数量作为指标将对事实造成严重的扭曲。
有一个事实就是,Hortonworks和雅虎一起贡献的代码行数达到了Apache Hadoop收到的代码总行数的80%。这个数字(正如Owen在他的方法里描述的那样)归功于那些雇佣开发者完善Apache Hadoop的公司。那些公司通过支持员工为Apache Hadoop编写代码来帮助Apache Hadoop的发展,而这只有在这些企业得到认可时才显得公平。
这里有一个图标展示了2006年以来Apache Hadoop收到的代码的总行数,这表基于在贡献时期雇佣了开发者的公司。 
Cloudera声称认可应该给开发者的现任雇主,不应考虑前雇主的投资。我们同意个人,而非公司,才是开源项目贡献者;但我们不认为我们可以忽略公司对建造Apache Hadoop所作出的投入。只有把在雅虎时的作出的贡献和雅虎作出的贡献都考虑进去才显得公平。
|