十三款开源Java大数据工具一网打尽

2013-5-3 11:02| 发布者: joejoe0332| 查看: 3467| 评论: 0|原作者: watchstor.com|来自: watchstor.com

摘要: 　　大数据几乎已成为所有商业领域共有的最新趋势，然而大数据究竟是什么？是噱头、泡沫，又或是真如传言一样的重要。　　事实上，大数据是个非常简单的术语——就像它所说的一样，是非常大的数据集。那么究竟有大 ...

　　4. Cassandra

　　Apache Cassandra是一个高性能、可线性扩展、高有效性数据库，可以运行在商用硬件或云基础设施上打造完美的任务关键性数据平台。在横跨数据中心的复制中，Cassandra同类最佳，为用户提供更低的延时以及更可靠的灾难备份。通过log-structured update、反规范化和物化视图的强支持以及强大的内置缓存，Cassandra的数据模型提供了方便的二级索引（column indexe）。

　　5. Hive

　　Apache Hive是Hadoop的一个数据仓库系统，促进了数据的综述（将结构化的数据文件映射为一张数据库表）、即席查询以及存储在Hadoop兼容系统中的大型数据集分析。Hive提供完整的SQL查询功能——HiveQL语言，同时当使用这个语言表达一个逻辑变得低效和繁琐时，HiveQL还允许传统的 Map/Reduce程序员使用自己定制的Mapper和Reducer。

　　6. Pig

　　Apache Pig是一个用于大型数据集分析的平台，它包含了一个用于数据分析应用的高级语言以及评估这些应用的基础设施。Pig应用的闪光特性在于它们的结构经得起大量的并行，也就是说让它们支撑起非常大的数据集。Pig的基础设施层包含了产生Map-Reduce任务的编译器。Pig的语言层当前包含了一个原生语言——Pig Latin，开发的初衷是易于编程和保证可扩展性。

　　7. Chukwa

　　Apache Chukwa是个开源的数据收集系统，用以监视大型分布系统。建立于HDFS和Map/Reduce框架之上，继承了Hadoop的可扩展性和稳定性。 Chukwa同样包含了一个灵活和强大的工具包，用以显示、监视和分析结果，以保证数据的使用达到最佳效果。

　　8. Ambari

　　Apache Ambari是一个基于web的工具，用于配置、管理和监视Apache Hadoop集群，支持Hadoop HDFS,、Hadoop MapReduce、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同样还提供了集群状况仪表盘，比如heatmaps和查看MapReduce、Pig、Hive应用程序的能力，以友好的用户界面对它们的性能特性进行诊断。

　　9. ZooKeeper

　　Apache ZooKeeper是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、命名服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。

　　10. Sqoop

　　Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库中数据导入Hadoop的HDFS中，也可以将HDFS中数据导入关系型数据库中。

　　11. Oozie

　　Apache Oozie是一个可扩展、可靠及可扩充的工作流调度系统，用以管理Hadoop作业。Oozie Workflow作业是活动的Directed Acyclical Graphs（DAGs）。Oozie Coordinator作业是由周期性的Oozie Workflow作业触发，周期一般决定于时间（频率）和数据可用性。Oozie与余下的Hadoop堆栈结合使用，开箱即用的支持多种类型Hadoop 作业（比如：Java map-reduce、Streaming map-reduce、Pig、 Hive、Sqoop和Distcp）以及其它系统作业（比如Java程序和Shell脚本）。

　　12. Mahout

　　Apache Mahout是个可扩展的机器学习和数据挖掘库，当前Mahout支持主要的4个用例：

　　推荐挖掘：搜集用户动作并以此给用户推荐可能喜欢的事物。

　　聚集：收集文件并进行相关文件分组。

　　分类：从现有的分类文档中学习，寻找文档中的相似特征，并为无标签的文档进行正确的归类。

　　频繁项集挖掘：将一组项分组，并识别哪些个别项会经常一起出现。

　　13. HCatalog

　　Apache HCatalog是Hadoop建立数据的映射表和存储管理服务，它包括：

　　提供一个共享模式和数据类型机制。

　　提供一个抽象表，这样用户就不需要关注数据存储的方式和地址。

　　为类似Pig、MapReduce及Hive这些数据处理工具提供互操作性。

12 / 2 页在本页阅读全文