据估计,到2015年,全世界一半以上的数据将涉及Hadoop--围绕这个开源平台的生态系统日益庞大,这有力地印证了这个惊人的数字。 然而,有些人表示,虽然Hadoop是眼下热闹非凡的大数据领域最热话题,但它肯定不是可以解决数据中心和数据管理方面所有难题的灵丹妙药。考虑到这一点,我们暂且不想猜测这个平台未来会如何,也不想猜测彻底改变各种数据密集型解决方案的开源技术未来会如何,而是关注让Hadoop越来越火的实际应用案例。 毫无疑问,现在有几个出众的例子,表明Hadoop及相关开源技术(Hive和HBase等)在如何重塑大数据公司考虑基础设施的角度。 虽然我们会通过在今年Hadoop Wrld大会之前撰写的一系列文章,继续专门介绍Hadoop并非解决之道的应用案例,但是不妨阐明几个引人注目的、大规模Hadoop部署案例,它们在重塑依赖大数据的公司,这些公司从事社交媒体、旅游和一般商品和服务等行业。 电子港湾(eBay)的Hadoop环境先来介绍你在电子商务兴起时期最先开始听到的一家公司:电子港湾(eBay)。 案例之一:电子港湾的Hadoop环境 电子港湾公司分析平台开发小组的Anil Madan讨论了这家拍卖行业的巨擘在如何充分发挥Hadoop平台的强大功能,充分利用每天潮水般涌入的8TB至10TB数据。 虽然电子港湾只是几年前才开始向生产型Hadoop环境转移,但它却是早在2007年就率先开始试用Hadoop的大规模互联网公司之一,当时它使用一个小型集群来处理机器学习和搜索相关性方面的问题。 这些涉及的是少量数据;Madan表示,但是就这个试验项目而言很有用;不过随着数据日益增加、用户活动日益频繁,电子港湾想充分利用几个部门和整个用户群当中的数据。 电子港湾的第一个大型Hadoop集群是500个节点组成的Athena,这个专门建造的生产型平台可以满足电子港湾内部几个部门的要求。该集群只用了不到三个月就建成了,开始高速处理预测模型、解决实时问题;后来不断扩大规模,以满足其他要求。 Madan表示,该集群现由电子港湾的许多小组使用,既用于日常生产作业,又用于一次性作业。小组使用Hadoop的公平调度器(Fair Scheduler)来管理资源分配、为各小组定义作业池、赋予权重、限制每个用户和小组的并行作业,并且设定抢占超时和延迟调度。 |