设为首页收藏本站

LUPA开源社区

 找回密码
 注册
文章 帖子 博客
LUPA开源社区 首页 业界资讯 开源资讯 查看内容

以Hadoop为核心:“大数据”的大承诺

2010-9-19 16:50| 发布者: joejoe0332| 查看: 5406| 评论: 0|原作者: 于翔|来自: 网界网

摘要:   面对海量的业务数据,Hadoop和其他工具正在视图揭示深奥的企业与外部数据的关键内幕。   在追求竞争优势的无止境征程中,企业开始求助于企业与外部数据的大型信息库来发现趋势、统计数据以及其 他帮助决定下一 ...

  扩展Hadoop

  除了许多开源支持工具外(例如Clojure和Thrift),市场上还有几十种商用选择,虽然许多工 具是利用Hadoop为基础构建的。PricewaterhouseCoopers技术与创新中心近日发表了“大数据”模块化构建及其与IT部署和业务使 用关系的深度指南。

  Datameer是其中的一个例子。Datameer提供一种平台,用于采集与读取不同类型的大型数据 库,将它们植入到Hadoop框架中,然后提供分析这些数据的工具。Datameer实际上是寻求将Hadoop的复杂性隐藏起来,并提供运行在 Hadoop之上的分析工具。Datameer的诱人之处是超过10TB的数据源,Datameer认为在这种数据规模水平上,企业在使用传统技术进行分 析时开始遇到困难。

  另一些提供类似的“大数据”分析技术的商业厂商包括Appistry、Cloudera,、Drawn to Scale HQ、Goto Metrics、Karmasphere和Talend。3家主要数据库厂商,IBM、微软和甲骨文都支持与Hadoop的互动,尽管以不同的方式实现。 开源BI厂商Pentaho也支持Hadoop。

  适合各种规模的企业

  “大数据”的优势并不只是规模,还在于性能,无论数据集合的维数有多少。这对于直接分析非常重要,例如评估某位客户在网站上的行为来更好地了解他们需要什么支持或寻找什么产品,或者搞清当前天气和其他条件对于送货路线和时间安排的影响。

  这正是服务器集群、高性能文件系统和并行处理的用武之地。过去,这些技术过于昂贵,只能为大企业所采用。今天,虚拟化和商用硬件大大降低了使用这些技术的成本,从而使“大数据”可为中小企业所用。

  那些较小的企业还有另一条利用“大数据”分析的途径——云。“大数据”云服务开始出现,提供迅速、高效执行分析的平台和工具。

  但是,较小的企业真的需要利用“大数据”吗?答案是,需要。所有的公司都有“大数据”,不管它们是否意 识到它的存在。例如,大多数在线企业都从它们的日志文件和点击流数据中采集大量的数据。对于没有这类数据流、保存兆千字节而非兆兆字节的公司而言,“大数 据”使它们可以利用巨大的、公开的数据源宝藏。

  世界银行在线发布了其有关整个世界的统计数据,美国国会图书馆存档了自2006年3月起的所有 Twitter数据。此外,还有很多有关提供对它们的信息低成本访问的新闻,以及针对数据服务的投资。除了你自己的数据外,“大数据”技术可以用于分析这 些数据源,或者同时对两者进行分析。
以FlightCaster为例。这是一家提供更高精度航班延误预测服务的公司,在预测过程中其准确度超过了 主要航空公司的估计。FlightCaster挖掘了大量有关国内航班的海量历史数据和实时条件下的各种因素,以及其他利用大量同样可供航空公司使用的公 开数据所得到的其他专有元素。

  FlightCaster的秘密在于,其对“大数据”分析技术实际的了解和应用正确的工具实时计算结果。

  随着费用的降低和企业考虑关联数据的新途径,“大数据”分析技术将变得更加普及,这也许为小公司提供一种变成大公司的成长机制。谷歌、雅虎和 Facebook曾经都是小公司,它们因利用自己的数据和了解这些数据中的关系而迅速成长。“大数据”的许多基础来自于这些企业所开发的技术并非偶然的。 今天,这些方法通过Hadoop和其他工具广泛地提供给像您的公司这样的企业。

酷毙

雷人

鲜花

鸡蛋

漂亮

相关阅读

  • 快毕业了,没工作经验,
    找份工作好难啊?
    赶紧去人才芯片公司磨练吧!!

最新评论

关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号   

返回顶部