近日,IBM在其开发技术网站Alphaworks发布了一个Eclipse插件-IBM MapReduce Tools for
Eclipse,通过该插件,开发者可以在Eclipse上创建MapReduce应用程序。 它使用了Hadoop开源MapReduce框架,该框架可以使数据密集型应用程序运行在一般硬件的大型群集之上。 Hadoop是Google labs 的MapReduce的一个实现,Nutch项目的全部数据处理都构建在其之上。MapReduce是一种简化的分布式编程模式,让程序可以自动在普通机器组成的集群中以并行方式分布执行。通过今年的整合工作,已经可以轻松的在Amazon的EC2平台上运行Hadoop MapReduce应用程序,以及把Amazon的S3平台用以存储。Amazon的网络服务博客中表示,“因为在EC2实例之间的带宽和存储在S3中的数据是无法计算的,因此这是一个处理大容量数据的非常有经济效益的方法。” IBM的MapReduce插件支持以下功能: ·支持以JAR文件方式打包和部署一个Java项目到一个Hadoop服务器(本地和远程) ·辅助开发过程的一些技术小提示 ·可以查看Hadoop服务器、Hadoop分布式文件系统(DFS)和当前任务状态的分离视图 ·方便基于MapReduce框架的类开发的向导 该插件可以运行在Windows、Linux或任何可以运行Eclipse的操作系统上。 它还包含了完善的小技术提示和全面的OS X兼容性。该插件自动创建一个包含Hadoop库的项目以供开发和测试。MapReduce驱动的模板也被提供。在一个项目被完成后,该插件使用SCP(安全拷贝)来部署代码到一个Hadoop服务器上,然后使用SSH在Hadoop服务器上远程执行该代码,在执行过程中,该插件使用HTTP协议与Hasoop任务跟踪器进行会话,并显示任务状态。 |