摘要:来自Andreessen Horowitz的1400万美元投资,以及Cloudera在2013 Strata+Hadoop大会抛出的重磅消息,使Databricks再次引起了业界关注。CSDN再次采访了Spark的核心成员、Databricks的联合创始人辛湜。 今年4月份,CSDN曾采访过来自UC Berkeley计算机系AMPLab的博士生辛湜(英文名Reynold Xin),他是Shark的作者,同时也是Spark的核心成员(@hashjoin),如今他又多了一个新的身份——Databricks的联合创始人。Databricks可谓阵容豪华,包括了UC Berkeley计算机教授、AMPLab联合创始人Ion Stoica,UC Berkeley计算机科学教授Scott Shenker(Scott计算机历史上论文被引用次数最高的人,同时也是知名SDN公司Nicira的联合创始人及前CEO),Spark原作者、MIT教授Matei Zaharia。近期,来自Andreessen Horowitz的1400万美元投资,以及Cloudera在2013 Strata+Hadoop大会抛出的重磅消息,使Databricks再次引起了业界关注。CSDN再次采访了辛湜,向他了解了关于Spark以及Databricks的最新消息。 以下为专访整理: CSDN:目前Spark的发展状况是怎么样的?未来的研究方向是什么? 辛湜:UC Berkeley AMPLab今年把Spark贡献给了ASF(Apache Software Foundation)开源社区,Spark已经成为一个ASF项目,正式名字是Apache Spark。很多公司和机构开始利用Spark分析和提取数据,编写机器学习和图的应用等等。在中国我知道淘宝、腾讯、优酷、大众点评等互联网公司都有成功的案例。全球各地已经有接近100个开源贡献者,包括了很多身在中国的工程师。除了Hadoop MapReduce之外,Spark是用户数和贡献人数最多的大数据开源系统。Spark可能会在不久的将来超越MapReduce。 2012年10月-2013年9月Spark贡献者的增长状况 作为一个ASF的项目,Spark的发展很大程度上是开源社区共同决定的。UC Berkeley和Databricks的团队希望未来Spark的发展重点在以下几个方面:
CSDN:能否介绍下Databricks的情况,您在Databricks主要的工作是什么?创业会对您的研究工作产生什么影响? 辛湜:今年年中,我和几个AMPLab的同僚(包括Ion Stoica教授和Spark的原作者Matei Zaharia)共同创立了Databricks公司。Databricks的目标是从Spark开始,构建一系列更强大、更简单的大数据分析处理工具和平台。九月份的时候,我们正式宣布从硅谷风投Andreessen Horowitz获得A轮融资1400万美元,利用这些资金吸引人才,提高大数据生态系统发展的步伐。 |