设为首页收藏本站

LUPA开源社区

 找回密码
 注册
文章 帖子 博客

如何挑选合适的大数据或Hadoop平台?

2013-10-10 11:36| 发布者: joejoe0332| 查看: 3050| 评论: 0|原作者: Kai Wähner|来自: InfoQ

摘要:   今年,大数据在很多公司都成为相关话题。虽然没有一个标准的定义来解释何为 “大数据”,但在处理大数据上,Hadoop已经成为事实上的标准。IBM、Oracle、SAP、甚至Microsoft等几乎所有的大型软件提供商都 采用了H ...

  大数据套件提供商
 
  大数据套件的数目在持续增长。你可以在几个开源和专有提供商之间选择。像IBM、Oracle、Microsoft等这样的大部分大软件提供商将某一类的 大数据套件集成到自己的软件产品组合中。而绝大多数的这些厂商仅只支持某一个Hadoop发行版本,要么是自己的,要么和某个Hadoop发行版本提供商 合作。
 
  从另外一方面来看,还有专注于数据处理的提供商可供选择。它们提供的产品可用于数据集成、数据质量、企业服务总线、业务流程管理和更进一步的集成组件。既 有像Informatica这样的专有提供商,也有Talend或Pentaho这样的开源提供商。某些提供商不只支持某一个Hadoop发行版本,而是 同时支持很多的。比如,就在撰写本文的时刻,Talend就可以和Apache Hadoop、Cloudera、Hortonworks、MapR、Amazon Elastic MapReduce或某个定制的自创发行版本(如使用EMC的Pivotal HD)一起使用。
 

  如何选择合适的大数据套件?
 
  本文不会评估各个大数据套件。当你选择大数据套件时,应考虑几个方面。下面这些应该可以帮助你为自己的大数据问题作出合适的抉择:

 •简单性:亲自试用大数据套件。这也就意味着:安装它,将它连接到你的Hadoop安装,集成你的不同接口(文件、数据库、B2B等等),并最终建模、 部署、执行一些大数据作业。自己来了解使用大数据套件的容易程度——仅让某个提供商的顾问来为你展示它是如何工作是远远不够的。亲自做一个概念验证。
•广泛性:是否该大数据套件支持广泛使用的开源标准——不只是Hadoop和它的生态系统,还有通过SOAP和REST web服务的数据集成等等。它是否开源,并能根据你的特定问题易于改变或扩展?是否存在一个含有文档、论坛、博客和交流会的大社区?
•特性:是否支持所有需要的特性?Hadoop的发行版本(如果你已经使用了某一个)?你想要使用的Hadoop生态系统的所有部分?你想要集成的所有接 口、技术、产品?请注意过多的特性可能会大大增加复杂性和费用。所以请查证你是否真正需要一个非常重量级的解决方案。是否你真的需要它的所有特性?
•陷阱:请注意某些陷阱。某些大数据套件采用数据驱动的付费方式(“数据税”),也就是说,你得为自己处理的每个数据行付费。因为我们是在谈论大数据,所 以这会变得非常昂贵。并不是所有的大数据套件都会生成本地Apache Hadoop代码,通常要在每个Hadoop集群的服务器上安装一个私有引擎,而这样就会解除对于软件提供商的独立性。还要考虑你使用大数据套件真正想做 的事情。某些解决方案仅支持将Hadoop用于ETL来填充数据至数据仓库,而其他一些解决方案还提供了诸如后处理、转换或Hadoop集群上的大数据分 析。ETL仅是Apache Hadoop和其生态系统的一种使用情形。
 

  决策树:框架vs.发行版本vs.套件
 
  现在,你了解了Hadoop不同选择之间的差异。最后, 让我们总结并讨论选择Apache Hadoop框架、Hadoop发行版本或大数据套件的场合。
 

  下面的“决策树”将帮助你选择合适的一种:
 

Apache:
 •学习并理解底层细节?
•专家?自己选择和配置?
 
发行版本:
 •容易的设置?
•初学(新手)?
•部署工具?
•需要商业支持?
 
大数据套件:
 •不同数据源集成?
•需要商业支持?
•代码生成?
•大数据作业的图形化调度?
•实现大数据处理(集成、操作、分析)?
 

  结论
 
  Hadoop安装有好几种选择。你可以只使用Apache Hadoop项目并从Hadoop生态系统中创建自己的发行版本。像Cloudera、Hortonworks或MapR这样的Hadoop发行版本提供 商为了减少用户需要付出的工作,在Apache Hadoop之上添加了如工具、商业支持等特性。在Hadoop发行版本之上,为了使用如建模、代码生成、大数据作业调度、所有不同种类的数据源集成等附 加特性,你可以使用一个大数据套件。一定要评估不同的选择来为自己的大数据项目做出正确的决策。
 

  作者简介
 
  Kai Wähner 是Talend公司的首席顾问。他擅长的主要领域是Java EE、SOA、云计算、业务流程管理(BPM)、大数据以及企业架构管理。他还在像JavaOne、ApacheCon或OOP这样的国际IT会议上做演 讲,为{敏感词}撰文,并在博客上分享自己的经验。你可以在他的网站上找到更多详细信息和参考资料(演示文稿、文章、博客文章),可以点击这里或是通过 Twitter:@KaiWaehner来联系他。
 
查看英文原文:Spoilt for Choice – How to choose the right Big Data / Hadoop Platform?

酷毙

雷人

鲜花

鸡蛋

漂亮
  • 快毕业了,没工作经验,
    找份工作好难啊?
    赶紧去人才芯片公司磨练吧!!

最新评论

关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号   

返回顶部