设为首页收藏本站

LUPA开源社区

 找回密码
 注册
文章 帖子 博客

十八款Hadoop工具帮你驯服大数据

2013-12-13 14:43| 发布者: joejoe0332| 查看: 7483| 评论: 0|原作者: 核子可乐译|来自: 51CTO.com

摘要: Hadoop已经通过自身的蓬勃发展证明,它不仅仅是一套用于将工作内容传播到计算机群组当中的小型堆栈--不,这与它的潜能相比简直微不足道。这套核心的价值已经被广泛证实,目前大量项目如雨后春笋般围绕它建立起来。有 ...


  NoSQL



  并不是所有Hadoop集群都会使用HBase或者HDFS。某些集成了NoSQL的数据存储体系会采取自己的独特机制实现跨集群各节点的数据存储任务。在这种情况下,此类体系能够利用NoSQL数据库的全部功能对数据进行存储与检索,而后利用Hadoop规划同一集群当中的数据分析作业。


  此类方案中最为常见的当数Cassandra、Riak或者MongoDB,而用户则在积极探索将这两种技术加以结合的最佳方式。作为MongoDB的主要支持厂商之一,10Gen公司建议用户利用Hadoop进行离线分析,而MongoDB同时仍然能够以实时方式统计来自Web的数据。上图所示为连接器如何实现两套体系之间的数据迁移。


  Mahout



  目前能够帮助我们进行数据分析、分类以及筛选的算法多种多样,而Mahout项目的设计目的正是为了将这些算法引入Hadoop集群当中。大多数标准化算法,例如K-Means、Dirichelet、并行模式以及贝叶斯分类等,都能够让我们的数据同Hadoop类型的映射与规约机制进行协作。


  上图所示为一套篷聚类集群化算法,它选择点与半径来构成圆圈、从而覆盖整个点集合中的对应部分。这只是众多Hadoop内置数据分析工具之一。

Mahout从属于Apache项目并遵循Apache许可。


  官方网站:mahout.apache.org


  Lucene/Solr



  这是目前惟一的一款用于检索非结构化文本大型块的工具,它同时也是Hadoop的天生合作伙伴。由于利用Java编写,Lucene能够轻松与Hadoop展开协作,共同创建出一套用于分布式文本管理的大型工具。Lucene负责处理检查任务、Hadoop则负责将查询分布到整个集群当中。


  新的Lucene-Hadoop功能正迅速发展成为全新项目。以Katta为例,作为Lucene的衍生版本,它能自动对整个集群进行解析。Solr则提供集成度更高的动态集群化解决方案,能够解析XML等标准化文件格式。上图所示为Luke,一款用于Lucene浏览的图形用户界面。它现在还提供插件、用于对Hadoop集群进行浏览检索。


  Lucene及其多个衍生版本都属于Apache项目的组成部分。


  官方网站:www.apache.org



酷毙

雷人

鲜花

鸡蛋

漂亮
  • 快毕业了,没工作经验,
    找份工作好难啊?
    赶紧去人才芯片公司磨练吧!!

最新评论

关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号   

返回顶部