大数据下的数据分析:Hadoop架构解析

2011-8-30 14:39| 发布者: joejoe0332| 查看: 15142| 评论: 0|原作者: 谢超|来自: 程序员

摘要: 　　随着互联网、移动互联网和物联网的发展，谁也无法否认，我们已经切实地迎来了一个海量数据的时代，数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB，对这些海量数据的分析已经成为一个非常重要且紧迫的需求 ...

　　一种Hadoop多维分析平台的架构

　　整个架构由四大部分组成：数据采集模块、数据冗余模块、维度定义模块、并行分析模块。如图4所示。

一种Hadoop多维分析平台的架构
图4 Hadoop多维分析平台架构图

　　数据采集模块采用了Cloudera的Flume，将海量的小日志文件进行高速传输和合并，并能够确保数据的传输安全性。单个collector宕机之后，数据也不会丢失，并能将agent数据自动转移到其他的colllecter处理，不会影响整个采集系统的运行。如图5所示。

一种Hadoop多维分析平台的架构
图5 采集模块

　　数据冗余模块不是必须的，但如果日志数据中没有足够的维度信息，或者需要比较频繁地增加维度，则需要定义数据冗余模块。通过冗余维度定义器定义需要冗余的维度信息和来源(数据库、文件、内存等)，并指定扩展方式，将信息写入数据日志中。在海量数据下，数据冗余模块往往成为整个系统的瓶颈，建议使用一些比较快的内存NoSQL来冗余原始数据，并采用尽可能多的节点进行并行冗余;或者也完全可以在Hadoop中执行批量Map，进行数据格式的转化。

　　维度定义模块是面向业务用户的前端模块，用户通过可视化的定义器从数据日志中定义维度和度量，并能自动生成一种多维分析语言，同时可以使用可视化的分析器通过GUI执行刚刚定义好的多维分析命令。

　　并行分析模块接受用户提交的多维分析命令，并将通过核心模块将该命令解析为Map-Reduce，提交给Hadoop集群之后，生成报表供报表中心展示。

　　核心模块是将多维分析语言转化为MapReduce的解析器，读取用户定义的维度和度量，将用户的多维分析命令翻译成MapReduce程序。核心模块的具体逻辑如图6所示。

一种Hadoop多维分析平台的架构
图6 核心模块的逻辑