2014年4月19日“中国Spark技术峰会”(Spark Summit China 2014)将在北京召开,国内外Apache Spark社区成员和企业用户将首次齐聚北京。AMPLab、Databricks、Intel、淘宝、网易等公司的Spark贡献者及一线开发者将分享他们在生产环境中的Spark项目经验和最佳实践方案。
Spark作为一个通用的并行计算框架,已经成为继Hadoop之后又一大热门开源项目,逐渐获得很多企业的支持。在Spark技术峰会召开前夕,记者采访到了本次峰会的演讲者——网易高级研究员、中国计算机学会大数据专委会委员王健宗博士。他曾任惠普云计算高级解决方案专家和美国莱斯大学电子与计算工程系研究员,现负责网易游戏大数据框架的研究和部署工作,在其推广下成功将Spark稳定应用在生产环境中。 CSDN的专访整理如下:
- 什么原因吸引你钻研Spark技术? 主要是Berkeley AMPLab出的东西吸引了我,我很信奉一句:“AMP出品,必属精品”,基本上每周我都会关注他们LAB的主页,阅读他们的技术报告和论文,紧跟他们的研究前沿,建议大家有兴趣多关注一下 https://amplab.cs.berkeley.edu/projects/ ,目前他们所孵化的一些生物计算、多核、机器学习等项目可能未来也会影响整个计算机领域。 记得五六年前,在云计算风生水起的时候,AMPLab所发表的“ABOVE THE CLOUDS: A BERKELEY VIEW OF CLOUD COMPUTING”,是目前云计算引用最高的文章,你现在回头看这篇文章会发现目前云计算的发展方向和战略依然逃不出这篇文章当时所定义和规划的内容。 我再说个例子,我以前最早是从事存储研究工作的,而AMPLab所出的RISC 、RAID、NOW可以说改变了并深远影响了整个计算机工业,记得我在美国留学的时候,和AMPLab的创始人DAVID PATTERSON有过当面的交流,对于这个杰出科学家依然保持对技术的热情,每天依然和学生MEETING到深夜的敬业精神所深深感动,有这样的一群人,你说他们所出的东西还用怀疑吗? Spark最早出现的时候,我就很关注,这是Berkeley AMPLab在大数据时代的杀手锏,也是将来能一统大数据领域的利器,套用大约三十年前他们发明RAID时候的话,我觉得“ Spark会带来百亿的市场价值”。
|