扩展Hadoop 除了许多开源支持工具外(例如Clojure和Thrift),市场上还有几十种商用选择,虽然许多工 具是利用Hadoop为基础构建的。PricewaterhouseCoopers技术与创新中心近日发表了“大数据”模块化构建及其与IT部署和业务使 用关系的深度指南。 Datameer是其中的一个例子。Datameer提供一种平台,用于采集与读取不同类型的大型数据 库,将它们植入到Hadoop框架中,然后提供分析这些数据的工具。Datameer实际上是寻求将Hadoop的复杂性隐藏起来,并提供运行在 Hadoop之上的分析工具。Datameer的诱人之处是超过10TB的数据源,Datameer认为在这种数据规模水平上,企业在使用传统技术进行分 析时开始遇到困难。 另一些提供类似的“大数据”分析技术的商业厂商包括Appistry、Cloudera,、Drawn to Scale HQ、Goto Metrics、Karmasphere和Talend。3家主要数据库厂商,IBM、微软和甲骨文都支持与Hadoop的互动,尽管以不同的方式实现。 开源BI厂商Pentaho也支持Hadoop。 适合各种规模的企业 “大数据”的优势并不只是规模,还在于性能,无论数据集合的维数有多少。这对于直接分析非常重要,例如评估某位客户在网站上的行为来更好地了解他们需要什么支持或寻找什么产品,或者搞清当前天气和其他条件对于送货路线和时间安排的影响。 这正是服务器集群、高性能文件系统和并行处理的用武之地。过去,这些技术过于昂贵,只能为大企业所采用。今天,虚拟化和商用硬件大大降低了使用这些技术的成本,从而使“大数据”可为中小企业所用。 那些较小的企业还有另一条利用“大数据”分析的途径——云。“大数据”云服务开始出现,提供迅速、高效执行分析的平台和工具。 但是,较小的企业真的需要利用“大数据”吗?答案是,需要。所有的公司都有“大数据”,不管它们是否意 识到它的存在。例如,大多数在线企业都从它们的日志文件和点击流数据中采集大量的数据。对于没有这类数据流、保存兆千字节而非兆兆字节的公司而言,“大数 据”使它们可以利用巨大的、公开的数据源宝藏。 世界银行在线发布了其有关整个世界的统计数据,美国国会图书馆存档了自2006年3月起的所有
Twitter数据。此外,还有很多有关提供对它们的信息低成本访问的新闻,以及针对数据服务的投资。除了你自己的数据外,“大数据”技术可以用于分析这
些数据源,或者同时对两者进行分析。 随着费用的降低和企业考虑关联数据的新途径,“大数据”分析技术将变得更加普及,这也许为小公司提供一种变成大公司的成长机制。谷歌、雅虎和 Facebook曾经都是小公司,它们因利用自己的数据和了解这些数据中的关系而迅速成长。“大数据”的许多基础来自于这些企业所开发的技术并非偶然的。 今天,这些方法通过Hadoop和其他工具广泛地提供给像您的公司这样的企业。 |