设为首页收藏本站

LUPA开源社区

 找回密码
 注册
文章 帖子 博客
LUPA开源社区 首页 IT综合资讯 查看内容

Databricks核心成员专访:大数据时代“智能手机”

2013-11-15 14:25| 发布者: joejoe0332| 查看: 3543| 评论: 0|原作者: 周小璐|来自: CSDN

摘要:   摘要:来自Andreessen Horowitz的1400万美元投资,以及Cloudera在2013 Strata+Hadoop大会抛出的重磅消息,使Databricks再次引起了业界关注。CSDN再次采访了Spark的核心成员、Databricks的联合创始人辛湜。  今 ...


  因为是创业公司的关系,我现在做的事情很多。一天中可能一部分时间在负责招聘,一部分时间探讨公司决策,一部分时间在给公司员工买零食,然后剩下的大量时间用来写代码和code review。长远来看,我希望把主要的时间放在产品研发上。



Databricks团队成员


  后排从左向右依次为:Andy(Spark Summit的组织者)、Arsalan(曾在麦肯锡主管大数据以及IT策略管理咨询,现已加入Databricks)、Matei ZahariaIon StoicaScott ShenkerMike Franklin(AMPLab director)


  前排从左向右依次为:Ali( 世界知名的分布式系统、分布式算法以及调度系统专家)、辛湜Patrick(Sparrow的作者之一,也是Spark其中一个最重要的贡献者)、Aaron(Databricks工程师)


  CSDN:在刚结束的2013 Strata+Hadoop大会上,Cloudera宣布联合Databricks提供Spark企业级服务,这对于Databricks和Spark都有何重大意义?


  辛湜:尽管Spark现在有很多互联网以及科技公司的成功案例,得到了技术人员和开源社区的肯定,但是这个项目最终的成功需要大量企业级的应用。这个合作关系有三重意义:第一,它验证了整个大数据生态圈对Spark发展的认同,越来越多的机构认识到Spark可以帮助他们更高效、更快地从大数据中获取有价值的信息以辅助商业决策。第二,这个合作关系为用户提供企业级的支持奠定了基础。第三,Spark从项目初始阶段就是以尽最大程度兼容Hadoop而设计的(可以直接读取Hadoop文件以及Hadoop兼容的储存系统),两个公司的合作可以确保以后Spark成为Hadoop生态系统中最重要的框架之一,为Spark和Hadoop用户带来更大的价值。


  CSDN:自YARN之后,Hadoop可以运行更多的处理集群,对比其它的数据处理框架,Spark的优势会体现在什么地方?杀手级应用场景是什么? 


  辛湜:短期来看,最大的应用是进行复杂的数据分析,比如说利用机器学习或者图算法来实现推荐系统等等。长远来看,Spark的强项是可以用同一个框架来满足很多不同的应用场景,包括ETL、SQL、机器学习、图分析等等,更好的把这些应用场景集成起来。


  打个比方,在2007年iPhone出来之前,很多人会携带手机打电话和发短信,数码相机用于拍照,mp3/iPod来播放音乐,还有GPS导航装置。2007年之后,随着iPhone和其他智能手机的发展,以上大多数功能都被智能手机取代了。虽然智能手机在每个应用上的性能不一定能赶超专业设备,但是因为其简单小巧,大多数人更倾向于直接使用智能手机。除此之外,将这些功能集成到一部小巧的智能手机上也诞生了新的应用,比如说用户可以拍一张照片,直接利用手机内置的GPS给照片标上地理位置,上传到微博上和朋友分享,这些应用是单一的专业设备无法满足的。我们希望Spark会成为大数据时代的智能手机。

  CSDN:
2013年12月2日,将要在旧金山举办2013 Spark峰会,能否介绍下这次大会的情况?我注意到一个很有意思的地方,Cloudera和Hortonworks都是本次大会的赞助商,Hortonworks也会有一些对Spark的支持吗?



  辛湜:这次Spark峰会是Spark进入ASF之后的第一个社区活动,有十八个公司的代表会在大会中展示他们Spark应用的案例。其他信息暂时不方便透露(CSDN表示很期待在本次Spark峰会上看到Hortonworks的重磅消息)。


  CSDN:您做过的Shark项目和Facebook刚刚开源的Presto都属于SQL on Hadoop的范畴,能否从你的经验分析一下当前SQL on Hadoop的成熟度?


  辛湜:我个人觉得SQL on Hadoop和传统数据仓库相比最大的特点是它的灵活性。这个包括了数据储存格式的灵活性,schema的灵活性,分析的灵活性(并不是只能用SQL一种分析方法)等等。


  传统数据仓库发展了三四十年,SQL on Hadoop的成熟程度(功能、性能、生态圈、服务链等)相比之下还逊色不少。在头两三年,企业主要是利用Hadoop作为廉价的存储和ETL工具,但是随着Hadoop生态圈的发展,SQL on Hadoop市场会逐渐蚕食数据仓库市场。


  CSDN:2013年的SOSP中,来自UC Berkeley的大数据分析调度器Sparrow和流计算Discretized Streams引起了大家的关注,能否介绍下这两个项目?


  辛湜:在传统的大数据批量处理(batch computing)框架上,单个任务运行时间比较长,调度器的压力其实很小(比如MapReduce上甚至是利用heart beat来进行调度)。所以传统的调度器都是集成在一个节点上。而以Spark为代表的新一代系统单个任务时间可以很短(短到几个毫秒),对调度器的压力很大。如果集群规模大的话,调度器每秒钟可能要处理几十万个任务。Sparrow提出了一种完全分布式的集群调度器,在接近最佳调度的情况下,理论上可以调度的任务数无上限(实际测试中论文证明了Sparrow每秒可以轻松调度上百万个任务)。除了可以调度更多的任务之外,一个分布式的调度器也提高了调度系统的容错能力,可以容纳任何节点的错误。


  Discretized Streams就是Spark Streaming,利用Spark来做流处理。它的原理是把一个数据流切分成很多个小的batch(比如说每秒钟一个batch),然后利用Spark任务调度很快的特点,非常快地用批量处理的模式来处理这些batch。其最大的好处是你可以直接编写Spark的代码,然后把同一份代码应用到批量处理和流处理上。从此流处理和批量处理可以共享一套系统,大大降低数据分析处理的代价和提高维护能力。



酷毙

雷人

鲜花

鸡蛋

漂亮
  • 快毕业了,没工作经验,
    找份工作好难啊?
    赶紧去人才芯片公司磨练吧!!

最新评论

关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号   

返回顶部