在纽约举办的2014年Strata+Hadoop World大会开幕的前一天,Pivotal在官方博客上发布了一篇名为《数据湖(Data Lake)的未来架构:基于Tachyon和Apache Spark的In-memory数据交换平台》的文章,表达Pivotal与EMC对下一代数据湖技术的展望:
文中表示,Pivotal Big Data Suite一 直以来的理念是将数据湖作为企业内所有数据的中心化仓库,这样的好处是可以对所有的数据——无论是内存数据还是磁盘数据——进行SQL级别的处理,同时具 有将多种计算范式持久化的能力。然而随着高性能内存的性价比越来越高,内存数据库的相关技术与企业越来越成熟,Pivotal认为未来的数据湖将基于一种 组合式的新架构:磁盘存储+内存处理的混合框架。 Pivotal选择了Tachyon和Spark这两个开源项目作为此新架构的基础。其中,Tachyon作为其内存数据交换平台,而Spark作为内存计算层。文章在末尾处表示,Pivotal相信Tachyon会给HDFS这样的文件存储与内存处理的交互方式带来革命性的变化,并展望Tachyon会成为其Pivotal Big Data Suite的中心数据交换层。 InfoQ此前对Spark项目有过为数不少的报道和介绍,这个孵化自AMPLab的项目在过去两年间受到业界的广泛关注,被视为实时数据处理的一个优先选项。Tachyon项目也是来自于AMPLab,最早在2012年底对外发布,是一个相对年轻的项目,在最近也受到了越来越多公司的关注,这包括雅虎、红帽、Intel还有EMC——EMC已经在其闪存产品DSSD和Isilon中尝试集成Tachyon,Pivotal的文章中称Tachyon是AMPLab历史上成长最快的项目。 根据该项目官网的介绍,Tachyon是一个内存分布式文件系统,效果是“在Spark或MapReduce等集群框架中实现内存级速度的跨集群文件共享”。它具有类Java的文件API、兼容Hadoop MapReduce和Spark、底层文件系统可插拔等特性。 InfoQ中文站针对此事采访了Tachyon项目的领导者、UC Berkeley AMPLab的博士候选人李浩源,沟通内容如下: InfoQ:很高兴看到Tachyon得到越来越多的关注。Tachyon是你的博士研究方向,当时为何选择了这样一个课题?
InfoQ:在Github上看到现在参与Tachyon项目的开发者和企业也有将近50人,你从大家的patch来看,是否感觉各个公司的侧重点有些不同呢?目前项目是如何管理的?
InfoQ:你以前说过,在学校做东西需要有学术价值,能出论文,但企业则更注重将东西产品化、商业化。现在Tachyon毫无疑问是越来越商业化了,你现在仍然觉得出论文和商业化有很大的差别吗?
李浩源将在10月16日的Strata大会上就Tachyon项目进行分享。 |