设为首页收藏本站

LUPA开源社区

 找回密码
 注册
文章 帖子 博客

六个超大规模Hadoop部署案例

2014-3-20 14:27| 发布者: joejoe0332| 查看: 7341| 评论: 0|原作者: 张浩|来自: 中关村在线

摘要:   据估计,到2015年,全世界一半以上的数据将涉及Hadoop--围绕这个开源平台的生态系统日益庞大,这有力地印证了这个惊人的数字。  然而,有些人表示,虽然Hadoop是眼下热闹非凡的大数据领域最热话题,但它肯定不 ...


  虽然Madan经常在台上畅谈Hadoop具有的实际价值,他也经常提到工作小组在扩建电子港湾基础设施时面临、继续竭力克服的几个主要挑战。下面列出了与Hadoop有关的一系列挑战:


  可扩展性

  就现有版本而言,主服务器NameNde存在可扩展性问题。由于集群的文件系统不断扩大,它占用的内存空间也随之扩大,因为它把整个元数据保存在内存中。1PB的存储容量大概需要1GB的内存容量。几种切实可行的解决方案是分层命名空间分区,或者结合使用Zkeeper和HBase,实现元数据管理。


  可用性

  NameNde的可用性对生产型工作负载来说至关重要。开源社区正致力于冷备份(cld standby)、暖备份(warm standby)和热备份(ht standby)这几个选项,比如检查点(Checkpint)节点和备份(Backup)节点;从辅助NameNde切换avatar的Avatar节点;以及日志元数据复制技术。我们正在评估这些方案,以建立我们的生产型集群。


  数据发现

  在天生不支持数据结构的系统上支持数据监管、发现和模式管理。一个新项目准备把Hive的元数据存储区和wl合并成一个新系统,名为Hwl。我们旨在努力把该系统连接到我们的分析平台中,那样我们的用户很容易跨不同的数据系统发现数据。


  数据移动

  我们正在努力开发发布/订阅数据移动工具,以便跨我们不同的子系统,如数据仓库和Hadoop分布式文件系统(HDFS),支持数据拷贝和调和。


  策略

  通过配额(目前的Hadoop配额需要做一些改进)进行存储容量管理,能够制定良好的保留、归档和备份等策略。我们正根据集群的工作负载和特点,跨不同的集群努力定义这些策略。


  度量指标、度量指标、度量指标

  我们正在开发成熟可靠的工具,以便生成度量指标,用于度量数据来源、使用情况、预算编制和利用率。一些Hadoop企业服务器体现的现有度量指标有的不够全面,有的只是临时的,很难看清楚集群使用模式。


通用电气借助Hadoop分析用户情感


  案例之二:通用电气借助Hadoop分析用户的情感


  据通用电气公司(GE)Hadoop技术部的产品经理Linden Hillenbrand声称,情感分析很棘手--它不仅仅是个技术挑战,还是个业务挑战。


不看不知道 六个超大规模Hadoop部署案例


  在通用电气公司,数字媒体小组和Hadoop小组通力合作,为高度依赖高级情感分析功能的营销部门开发了一款交互式应用软件。


  此举目的在于,让营销小组能够通过我们开展的各项活动,评估外界对通用电气所持的看法(正面看法、中立看法或负面看法)。Hadoop负责支持该应用软件的情感分析部分,这部分对Hadoop来说是一种高度密集的文本挖掘应用环境。


  他声称,利用 Hadoop应对技术层面的这些挑战带来了重大改进。


  为了强调这一点,Hillenbrand提到了公司在情感分析方面采取的独特NSQL方法,这一方法带来了80%的准确率,也是Hadoop这个核心平台的基础,确保公司未来在数据挖掘方面求得发展。正如下图表明的那样,通用电气在利用数据挖掘以及新平台带来一种新的洞察力方面有了大幅改进。


  Hillenbrand表示,就通用电气在内部对Hadoop未来的展望而言,情感分析项目取得了双重成功。它不仅为这家《财富》50强公司的营销小组提供了更准确的结果,还为这家公司的下一代深度数据挖掘、分析和可视化等项目奠定了基础。



酷毙

雷人

鲜花

鸡蛋

漂亮
  • 快毕业了,没工作经验,
    找份工作好难啊?
    赶紧去人才芯片公司磨练吧!!

最新评论

关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号   

返回顶部