Spark生态系统解析及基于Redis的开源分布式服务Codis

2015-2-2 22:33| 发布者: joejoe0332| 查看: 3073| 评论: 0|原作者: 仲浩|来自: CSDN

摘要: 在第九期“七牛开发者最佳实践日”上，陈超就Spark整个生态圈进行了讲解，而刘奇则分享豌豆荚在Redis上的摸索和实践。

运行原理

　　上图表述了Spark运行原理：rdd1、rdd2、rdd3等等一直转换到另外一个RDD。需要注意的是，这里面存在的是一个延迟的执行，也就是转换不会立刻执行。Spark只会在元数据中记录这个过程，但是不会真正的执行，这个要注意一点，只有在碰到action的时候才会真正的去执行。这个时候需要注意的是，比如上图RDD2所做的cache，这个操作同样是lazy的，同样在碰到action的时候才会执行。就在这里，坑出现了，即使persist与cache使用的是相同的接口，但是unpersist却是eager的。从1.1版本开始，cache其实已经有了更安全的做法，但是涉及过多内核细节，这里就不做多的解释。

RDD的依赖性

　　narrow dependency和wide dependency是Spark中另外两个重要的概念。对比后者，narrow dependency无论是在从容错上，还是在执行效率上都占有优势。

ClusterManager：目前来讲，在国内采用率更大的显然是YARN。

Cluster overview

　　Sparkcontext，写代码时生成，并向ClusterManager请求资源。ClusterManager会负责连接到Worker Node取得资源，其中executor才是task的真正执行者。这里有三个需要注意的点：第一，ClusterManager是可插拔的，可以任意选择；第二点，因为driver program需求发送任务给Worker Node，因此提交任何的地方不要离Worker Node特别远。第三点比较重要的一点，每个应用程序在每个Worker Node上都会有独立的executor，并且不同应用程序的executor(间)是不可以共享数据的。

　　PS：YARN通过Container来封装资源，因此在YARN中Worker对应的是Container。

调度

　　最初，Spark程序会隐式地建立一个逻辑上有向无环图（DAG），随后DAGScheduler会将DAG切分成一个个stage，随后这些stage会被传送给TaskSchedluer，之后再传送给Worker上的excutor执行。其中excutor会以多线程的模式执行。

Shuffle

　　从理论上讲，Spark Shuffle从未超过MapReduce，直到改完以后才OK。当下，Shuffle使用的是基于PULL的模式，中间文件会写到磁盘，同时，在每个partition都会建立hash map。需要注意的是，在可以跨keys spill的同时，主机内存必须可以装进单key-value。

　　在监控上，之前的版本中，只有当一个任务结束时，才可以收集这个任务的运行数据，这点在当下的版本已被改进。

123 4 / 4 页下一页在本页阅读全文

酷毙

雷人

鲜花

鸡蛋

漂亮

收藏分享邀请

上一篇：诺基亚又要推出基于Android系统的智能手表了下一篇：GitHub给安全行业的四大启示

快毕业了，没工作经验，
找份工作好难啊？
赶紧去人才芯片公司磨练吧!!

帐号		自动登录	找回密码
密码			注册

Spark生态系统解析及基于Redis的开源分布式服务Codis

最新评论