Pivotal和EMC谈下一代数据湖技术

2014-10-17 12:16| 发布者: joejoe0332| 查看: 831| 评论: 0|原作者: 杨赛|来自: InfoQ

摘要: 在纽约举办的2014年Strata+Hadoop World大会开幕的前一天，Pivotal在官方博客上发布了一篇名为《数据湖（Data Lake）的未来架构：基于Tachyon和Apache Spark的In-memory数据交换平台》的文章，表达Pivotal与EMC对下 ...

　　在纽约举办的2014年Strata+Hadoop World大会开幕的前一天，Pivotal在官方博客上发布了一篇名为《数据湖（Data Lake）的未来架构：基于Tachyon和Apache Spark的In-memory数据交换平台》的文章，表达Pivotal与EMC对下一代数据湖技术的展望：

下一代数据湖技术的关键在于In-memory处理的普及+能够在单一环境下支持多重数据分析负载的架构。

　　文中表示，Pivotal Big Data Suite一直以来的理念是将数据湖作为企业内所有数据的中心化仓库，这样的好处是可以对所有的数据——无论是内存数据还是磁盘数据——进行SQL级别的处理，同时具有将多种计算范式持久化的能力。然而随着高性能内存的性价比越来越高，内存数据库的相关技术与企业越来越成熟，Pivotal认为未来的数据湖将基于一种组合式的新架构：磁盘存储+内存处理的混合框架。

　　Pivotal选择了Tachyon和Spark这两个开源项目作为此新架构的基础。其中，Tachyon作为其内存数据交换平台，而Spark作为内存计算层。文章在末尾处表示，Pivotal相信Tachyon会给HDFS这样的文件存储与内存处理的交互方式带来革命性的变化，并展望Tachyon会成为其Pivotal Big Data Suite的中心数据交换层。

　　InfoQ此前对Spark项目有过为数不少的报道和介绍，这个孵化自AMPLab的项目在过去两年间受到业界的广泛关注，被视为实时数据处理的一个优先选项。Tachyon项目也是来自于AMPLab，最早在2012年底对外发布，是一个相对年轻的项目，在最近也受到了越来越多公司的关注，这包括雅虎、红帽、Intel还有EMC——EMC已经在其闪存产品DSSD和Isilon中尝试集成Tachyon，Pivotal的文章中称Tachyon是AMPLab历史上成长最快的项目。

　　根据该项目官网的介绍，Tachyon是一个内存分布式文件系统，效果是“在Spark或MapReduce等集群框架中实现内存级速度的跨集群文件共享”。它具有类Java的文件API、兼容Hadoop MapReduce和Spark、底层文件系统可插拔等特性。

　　InfoQ中文站针对此事采访了Tachyon项目的领导者、UC Berkeley AMPLab的博士候选人李浩源，沟通内容如下：

　　InfoQ：很高兴看到Tachyon得到越来越多的关注。Tachyon是你的博士研究方向，当时为何选择了这样一个课题？

李浩源：一方面是个人兴趣，一直以来，我对存储有很大的兴趣，因为计算机数据处理流程分为读取、处理分析、以及写入，前后都是都是有存储系统来完成。另一方面是机会，我是3年前加入UC Berkeley AMPLab的，实验室有过很多成功的项目，比如Apache Mesos和Apache Spark，但是它们一个是计算机集群资源调度层，一个是并行计算层，还没有一个存储层的支撑。两方面结合，我就选择了这个课题。

　　InfoQ：在Github上看到现在参与Tachyon项目的开发者和企业也有将近50人，你从大家的patch来看，是否感觉各个公司的侧重点有些不同呢？目前项目是如何管理的?

李浩源：Github上面的统计不是很全面，其实已经有超过60人（其中包括不少来自国内的开发者）为项目提交过代码，并且还有一些比较大的功能在一些公司和科研机构已经内部测试过，正在提交的过程中。

因为每个公司机构的战略不一样，所以的确侧重点是不一样。比如说，网络硬件公司就会对Tachyon的网络层更加有兴趣，系统集成公司对Tachyon的兼容性更有兴趣。

从项目管理上来讲，Tachyon有一个比较开放的社区，很高兴可以有更多的开发者加入。目前的流程是比较小规模的改动，开发者会自己提交一个 Patch。而对于比较大的功能，开发者和我会有紧密的合作，确保功能和项目的总体方向切合，并有一个初步设计意向。而后社区会对设计和代码提出建议，经过一些轮的改动之后，我会尽快把代码融合(merge)到项目的公共代码库中。

随着项目的发展，越来越多的公司和机构已经或者开始投入全职员工对项目进行开发，其中包括很多在其领域领先的上市公司，从长期来讲，我们会像 Apache Mesos以及Apache Spark一样，进入Apache Software Foundation。这里欢迎更多的开发者加入。

　　InfoQ：你以前说过，在学校做东西需要有学术价值，能出论文，但企业则更注重将东西产品化、商业化。现在Tachyon毫无疑问是越来越商业化了，你现在仍然觉得出论文和商业化有很大的差别吗？

李浩源：‘很大’不一定，但是的确是有区别的，比如我们Tachyon第一篇论文中的内容只是项目中的一个功能，并且有些时候工业界和学术界在项目的上重视点会有差异。项目的工业化在学术的基础上也还需要很大的工作。但是这两个事情在Tachyon这个项目来说是目前来看相辅相成的。

具体来说，今年以来，项目的使用公司数量在指数增长，根据三个月前的调查，已经有至少50-100家公司在使用Tachyon。更多公司的使用，使得学术机构看到更多的不同的应用案例，从而进行相对应的研究。目前我们实验室内部，以及和其他高校合作，就有不少Tachyon相关的科研工作，明年应该会看到更多的成果。而由于这些科研距离实际案例很近，所以会相对更加容易的增强Tachyon在产业界的应用。

　　李浩源将在10月16日的Strata大会上就Tachyon项目进行分享。

转自 http://www.infoq.com/cn/news/2014/10/pivotal-tachyon?utm_campaign=infoq_content&utm_source=infoq&utm_medium=feed&utm_term=global

酷毙

雷人

鲜花

鸡蛋

漂亮

收藏分享邀请

上一篇：中国科学家在量子电脑上演示人工智能下一篇：iPhone 6内地正式开售现场图

快毕业了，没工作经验，
找份工作好难啊？
赶紧去人才芯片公司磨练吧!!

帐号		自动登录	找回密码
密码			注册

Pivotal和EMC谈下一代数据湖技术

最新评论