- 对于解决哪些问题Spark独具优势? Spark的优势得天独厚,其是一个完整的大数据处理生态系统,除了底层存储HDFS还需要使用Hadoop的生态系统外,其他方面完全可以替代Hadoop,Hadoop自己在可用性、可靠性、实时性方面的一些劣势我这里就不重复叙述了,而Spark正是可以革命Hadoop的目前唯一替代者。 - 目前企业应用Spark最大的困难是什么? 目前最大的困难还是人的因素,了解Spark的人还是太少,我现在去和一些企业有大数据需求的CEO聊天的时候,一些单位使用Hadoop的人都很少,何谈Spark? 目前Spark处于企业应用的起步阶段,主要是一些大公司在应用,的确各方面还是不成熟,所以培养一批Spark技术专家来推动企业的应用迫不及待,也是目前企业应用的最大困难。 - 根据您的了解,目前Spark发展的情况如何? 目前SPARK整个大数据处理生态系统,如流处理、图技术、机器学习、NoSQL查询等方面都有自己的技术,并且也刚刚成为Apache顶级Project,在Hadoop 2.0中也完美整合,此外AMPLab一批人成立了公司来全力推动,有一些教授放弃了公职,一些博士中断了学业,相信以这种壮士断腕的霸气肯定可以把Spark发展好,Hadoop从推动到目前大规模应用也走了五年多时间,而Spark还有比较长的路要走。 - 请谈谈你在这次大会上即将分享的话题。 我主要介绍自己Spark的一些经验得失,因为Spark对于你我他都是新东西,都处于学习阶段,我只是走得前了一小步,所以我的一些经验总结期望能为大家应用落地Spark提供参考和帮助。 - 哪些听众最应该了解这些话题,这个话题可以帮助听众解决哪些问题? 我认为所有对大数据处理有兴趣,或者出现大数据处理实时性困难的公司或者个人都可以来参加这个峰会。相信经过这次峰会之后,可以坚定大家回去之后应用Spark来提到Hadoop的决心和信心,更多的内容我们可以峰会的时候交流。 |