六个超大规模Hadoop部署案例

2014-3-20 14:27| 发布者: joejoe0332| 查看: 7672| 评论: 0|原作者: 张浩|来自: 中关村在线

摘要: 　　据估计，到2015年，全世界一半以上的数据将涉及Hadoop--围绕这个开源平台的生态系统日益庞大，这有力地印证了这个惊人的数字。　　然而，有些人表示，虽然Hadoop是眼下热闹非凡的大数据领域最热话题，但它肯定不 ...

旅游行业的典型应用案例

　　案例之三：旅游行业的典型应用案例

　　rbitz Wrldwide旗下的全球消费者旅游品牌每天要处理数以百万计的搜索和交易。

　　通过关系数据库等传统系统，存储和处理这类活动生成的越来越庞大的数据量变得越来越难，因而这家公司求助于Hadoop，帮助消除部分复杂性。

不看不知道六个超大规模Hadoop部署案例

　　这家公司的首席软件工程师Jnathan Seidman和另一名工程师Ramesh Venkataramiah一向乐于讨论这家旅游网站的基础设施如何加以管理。他们俩在最近面向多位听众的一次交流中讨论了Hive的作用，尤其是对一些关键搜索功能所起的作用。

　　Hadoop和Hive帮助这家在线旅游中心处理各项事务：改进让游客可以迅速筛选和分类酒店的功能，到查看更宏观内部趋势的功能，不一而足。据这两位工程师声称，rbitz的大数据问题让它成为运用Hadoop的"典型"。他们俩表示，面对很分散的服务网络--这些服务每天生成数百GB大小的当天日志，处理每天数百万的这些搜索和交易，这绝非易事。

　　在上面的幻灯片中，他们俩演示了如何利用Hadoop和Hive来处理数据；可能更重要的是，演示了什么使得这家公司的特定问题最适合用Hadoop来处理（因为需要提醒的是一点，并非所有业务都有Hadoop的用武之地。）

Facebook更新Hadoop的状态

　　案例之四：Facebook更新Hadoop的状态

　　虽然一些公司和机构对其庞大的Hadoop系统秘而不宣，但是就已知存在的系统而言，Facebook的数据仓库Hadoop集群已成为世界上已知规模最大的Hadoop存储集群。

不看不知道六个超大规模Hadoop部署案例

　　下面是关于这个单一HDFS集群的一些详细信息：

　　单一HDFS集群中存储容量达21 PB

　　2000个机器

　　每个机器12 TB（有几个机器是每个24TB）

　　1200个机器每个有8个处理器核心，800个机器每个有16个核心

　　每个机器有32 GB内存

　　每个机器有15个映射/化简（map-reduce）任务

　　已配置存储容量总共超过21PB，大于之前大名鼎鼎的雅虎集群（14PB）。在Hadoop的早期，Facebook就与另外几个互联网巨擘，充分利用这种框架来管理其不断发展的业务。

　　由于每月活跃用户超过4亿个，页面浏览量超过5000亿人次，每个月共享的内容多达250亿则，对于自称能够处理大数据问题的任何技术而言，Facebook是再合适不过的应用环境。

　　Facebook的工程师与雅虎的Hadoop工程小组密切合作，把Hadoop推向更高的可扩展性和性能。Facebook有许多Hadoop集群，其中最大的一个集群用于数据仓库。下面一些统计数字描述了Facebook的数据仓库Hadoop集群的几个特点：

　　每天增加12 TB的压缩数据

　　每天扫描800 TB的压缩数据

　　每天处理25000个映射/化简作业

　　HDFS里面有6500万个文件

　　30000个客户机同时访问HDFS NameNde

　　Facebook的软件工程师、开源倡导者Jnathan Gray演示了Facebook如何一直使用更庞大Hadoop平台架构的一部分：HBase，支持生产环境下的在线应用程序和离线应用程序。

　　虽然上述幻灯片有点深奥，又针对特定环境，但是大致描述了HBase适合的那种复杂数据环境；而更重要的是，描述了这个环境需要怎样的一些重大调整和专门知识才加以管理。HBase仅仅是Facebk管理海量数据、为用户提供异常智能化服务的方法之一。

1 234 / 4 页下一页在本页阅读全文

酷毙

雷人

鲜花

鸡蛋

漂亮

收藏分享邀请

上一篇：企业部署底层架构:如何选择开源Linux下一篇：Linux桌面与Windows XP桌面对比

快毕业了，没工作经验，
找份工作好难啊？
赶紧去人才芯片公司磨练吧!!

帐号		自动登录	找回密码
密码			注册

六个超大规模Hadoop部署案例

旅游行业的典型应用案例

Facebook更新Hadoop的状态

最新评论