Tez APITez API包括以下几个组件:
如果你想查看一个API的使用示例,对这些属性的详细介绍,以及运行时如何展开逻辑图,那么可以看看Hortonworks提供的这篇文章。 运行时API基于输入—处理器—输出模型,借助于该模型所有的输入和输出都是可插拔的。为了方便,Tez使用了一个基于事件的模型,目的是为了让任务和系统之间、组件和组件之间能够通信。事件用于将信息(例如任务失败信息)传递给所需的组件,将输出的数据流(例如生成的数据位置信息)传送给输入,以及在运行时对DAG执行计划做出改变等。 Tez还提供了各种开箱即用的输入和输出处理器。 这些富有表现力的API能够让更高级语言(例如Hive)的编写者很优雅地将自己的查询转换成Tez任务。 Tez调度程序在决定如何分配任务的时候,Tez调度程序考虑了很多方面,包括:任务位置需求、容器的兼容性、集群可利用资源的总量、等待任务请求的优先级、自动并行化、释放应用程序不再使用的资源(因为对它而言数据并不是本地的)等。它还维护着一个使用共享注册对象的预热JVM连接池。应用程序可以选择使用这些共享注册对象存储不同类型的预计算信息,这样之后再进行处理的时候就能重用它们而不需要重新计算了,同时这些共享的连接集合及容器池资源也能非常快地运行任务。 如果你想了解更多与容器重利用相关的信息,那么可以查看这里。 扩展性总体来看,Tez为开发人员提供了丰富的扩展性以便于让他们能够应对复杂的处理逻辑。这可以通过示例“Hive是如何使用Tez的”来说明。 让我们看看这个经典的TPC-DS查询模式,在该模式中你需要将多个维度表与一个事实表连接到一起。大部分优化器和查询系统都能完成该图右上角部分所描述的场景:如果维度表较小,那么可以将所有的维度表与较大的事实表进行广播连接,这种情况下你可以在Tez上完成同样的事情。 但是如果这些广播包含用户自定义的、计算成本高昂的函数呢?此时,你不可能都用这种方式实现。这就需要你将自己的任务分割成不同的阶段,正如该图左边的拓扑图所展示的方法。第一个维度表与事实表进行广播连接,连接的结果再与第二个维度表进行广播连接。 第三个维度表不再进行广播连接,因为它太大了。你可以选择使用shuffle连接,Tez能够非常有效地导航拓扑。 使用Tez完成这种类型的Hive查询的好处包括:
使用新的Tez引擎执行这个特殊的Hive查询性能提升将超过100%。 路线图
总结Tez是一个支持DAG作业的分布式执行框架。它能够轻而易举地映射到更高级的声明式语言,例如Hive、Pig、Cascading等。它拥有一个高度可定制的执行架构,因而我们能够在运行时根据与数据和资源相关的实时信息完成动态性能优化。框架本身会自动地决定很多棘手问题,让它能够顺利地正确运行。 使用Tez,你能够得到良好的性能和开箱即用的效率。Tez的目标是解决Hadoop数据处理领域所面对的一些问题,包括延迟以及执行的复杂性等。Tez是一个开源的项目,并且已经被Hive和Pig使用。 关于作者
查看英文原文:What is Apache Tez? |