设为首页收藏本站

LUPA开源社区

 找回密码
 注册
文章 帖子 博客
LUPA开源社区 首页 业界资讯 开源资讯 查看内容

2013 Bossie评选:最佳开源大数据工具

2013-9-27 11:55| 发布者: joejoe0332| 查看: 1363| 评论: 0|原作者: 核子可乐译|来自: it168

摘要:   MapReduce的出现是为了突破数据库的局限。Giraph、Hama以及Impala等工具的出现则是为了突破MapReduce的局限。虽然上述方案的运行都需要以Hadoop为基础,但图形、文档、列式以及其它NoSQL数据库也是大数据当中不 ...

  Talend Open Studio for Big Data

  Talend Open Studio for Big Data允许大家直接向Hadoop中载入文件(通过HDFS、Hive以及Sqoop等),而且无需进行手动编码。其图形化IDE所生成的原生Hadoop代码(支持YARN/MapReduce 2)能够利用Hadoop分布式环境实现大规模数据转换。

  Talend的虚拟映射工具允许用户创建数据流并在无需涉及Pig的前提下加以测试。此外,项目进度安排与工作优化工具也进一步增强的工具包的功能阵容。

  着手对大量数据进行整理分析的第一步,是将数据从多种来源处汇聚到Hadoop当中,而后再由Hadoop转移至其它平台。Talend Open Studio帮助大家在处理迁移流程时随心所欲,完全不必为担任复杂性而担忧。

  -- James R. Borck

  官方网站:http://www.talend.com/products/big-data

2013 Bossie评选:最佳开源大数据工具


  Apache Giraph

  Apache Giraph是一套图形处理系统,专为高扩展性及高可用性需求所打造。作为谷歌Pregel的开源替代方案,Giraph已经被Facebook公司用于分析用户社交图谱及其彼此关联。这套系统采用了来自Pregel的高效整体同步并行处理模式,从而避免了MapReduce在处理图形内容时存在的固有问题。好消息是:Giraph计算进程可在大家的现有Hadoop基础设施中作为Hadoop任务运行。只要同时运行其它一些同类工具,大家就相当于获得了分布式图形处理能力。

  -- Indika Kotakadeniya

  官方网站:http://giraph.apache.org/

2013 Bossie评选:最佳开源大数据工具


  Apache Hama

  与Giraph类似,Apache Hama同样将整体同步并行处理机制引入Hadoop生态系统当中,而且以Hadoop分布式文件系统作为运行基础。不过与专注于图形处理任务的Giraph不同,Hama是一套更具通行特性的框架,旨在执行大量模型与图像计算任务。它将Hadoop的良好兼容性与更为灵活的编程模式结合起来,为数据密集型科学应用提供出色的运行基础。

  -- Indika Kotakadeniya

  http://hama.apache.org/


2013 Bossie评选:最佳开源大数据工具


  Cloudera Impala

  Cloudera Impala在实时SQL查询中的意义,可以等同于MapReduce在批量处理领域的重要作用。Impala引擎位于Hadoop集群的每一个数据节点当中,从而灵活地侦听查询请求。经过对查询的分析之后,它会通过优化生成一套执行规划,并在集群中的计算节点之间负责并行处理的协调工作。通过上述努力,Impala为用户在Haoop环境下带来更低的SQL查询延迟,并以接近实时的状态对大数据加以理解。

  由于Impala也能直接使用大家的原生Hadoop基础设施(例如HDFS、HBase以及Hive元数据),多方配合将构成一整统一平台,用户可以在不涉及连接器复杂性、ETL或者昂贵数据仓库等机制的前提下实现全面数据分析。此外,Impala可以从任何ODBC/JDBC源处轻松获取,所以能够成为Pentaho等商务智能工具包中的理想组件。

  -- James R. Borck

  官方网站:http://www.cloudera.com/content/cloudera/en/home.html

2013 Bossie评选:最佳开源大数据工具


  Serengeti

  作为VMware将虚拟化带入大数据处理领域的重要项目,Serengeti允许大家将Hadoop集群以动态方式运行在共享式服务器基础设施当中。该项目利用Apache Hadoop虚拟化扩展——由VMware开发并贡献——从而使Hadoop成功步入虚拟化环境。

  在Serengeti的帮助下,我们可以在几分钟之内完成Hadoop集群环境部署,且不必涉及节点布局、HA状态或者作业调度等令人头痛的配置选项。进一步讲,通过在每台主机内的多套虚拟机系统中部署Hadoop,Serengeti能够将数据及计算功能加以划分,并在维护本地数据存储的同时改进计算规模。

  -- James R. Borck

  官方网站:http://projectserengeti.org/

2013 Bossie评选:最佳开源大数据工具



酷毙
1

雷人

鲜花

鸡蛋

漂亮
  • 快毕业了,没工作经验,
    找份工作好难啊?
    赶紧去人才芯片公司磨练吧!!

最新评论

关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号   

返回顶部