Apache Tez是什么?

2014-10-11 11:16| 发布者: joejoe0332| 查看: 4184| 评论: 0|原作者: 孙镜涛|来自: InfoQ

摘要: Tez是Apache最新的支持DAG作业的开源计算框架，它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能。Tez并不直接面向最终用户——事实上它允许开发者为最终用户构建性能更快、扩展性更好的应用程序。 ...

Tez API

　　Tez API包括以下几个组件：

有向无环图（DAG）——定义整体任务。一个DAG对象对应一个任务。
节点（Vertex）——定义用户逻辑以及执行用户逻辑所需的资源和环境。一个节点对应任务中的一个步骤。
边（Edge）——定义生产者和消费者节点之间的连接。
边需要分配属性，对Tez而言这些属性是必须的，有了它们才能在运行时将逻辑图展开为能够在集群上并行执行的物理任务集合。下面是一些这样的属性：
- 数据移动属性，定义了数据如何从一个生产者移动到一个消费者。
- 调度（Scheduling）属性（顺序或者并行），帮助我们定义生产者和消费者任务之间应该在什么时候进行调度。
- 数据源属性（持久的，可靠的或者暂时的），定义任务输出内容的生命周期或者持久性，让我们能够决定何时终止。

　　如果你想查看一个API的使用示例，对这些属性的详细介绍，以及运行时如何展开逻辑图，那么可以看看Hortonworks提供的这篇文章。

　　运行时API基于输入—处理器—输出模型，借助于该模型所有的输入和输出都是可插拔的。为了方便，Tez使用了一个基于事件的模型，目的是为了让任务和系统之间、组件和组件之间能够通信。事件用于将信息（例如任务失败信息）传递给所需的组件，将输出的数据流（例如生成的数据位置信息）传送给输入，以及在运行时对DAG执行计划做出改变等。

　　Tez还提供了各种开箱即用的输入和输出处理器。

　　这些富有表现力的API能够让更高级语言（例如Hive）的编写者很优雅地将自己的查询转换成Tez任务。

Tez调度程序

　　在决定如何分配任务的时候，Tez调度程序考虑了很多方面，包括：任务位置需求、容器的兼容性、集群可利用资源的总量、等待任务请求的优先级、自动并行化、释放应用程序不再使用的资源（因为对它而言数据并不是本地的）等。它还维护着一个使用共享注册对象的预热JVM连接池。应用程序可以选择使用这些共享注册对象存储不同类型的预计算信息，这样之后再进行处理的时候就能重用它们而不需要重新计算了，同时这些共享的连接集合及容器池资源也能非常快地运行任务。

　　如果你想了解更多与容器重利用相关的信息，那么可以查看这里。

扩展性

　　总体来看，Tez为开发人员提供了丰富的扩展性以便于让他们能够应对复杂的处理逻辑。这可以通过示例“Hive是如何使用Tez的”来说明。

　　让我们看看这个经典的TPC-DS查询模式，在该模式中你需要将多个维度表与一个事实表连接到一起。大部分优化器和查询系统都能完成该图右上角部分所描述的场景：如果维度表较小，那么可以将所有的维度表与较大的事实表进行广播连接，这种情况下你可以在Tez上完成同样的事情。

　　但是如果这些广播包含用户自定义的、计算成本高昂的函数呢？此时，你不可能都用这种方式实现。这就需要你将自己的任务分割成不同的阶段，正如该图左边的拓扑图所展示的方法。第一个维度表与事实表进行广播连接，连接的结果再与第二个维度表进行广播连接。

　　第三个维度表不再进行广播连接，因为它太大了。你可以选择使用shuffle连接，Tez能够非常有效地导航拓扑。

　　使用Tez完成这种类型的Hive查询的好处包括：

它为你提供了全面的DAG支持，同时会自动地在集群上完成大量的工作，因而它能够充分利用集群的并行能力；正如上面所介绍的，这意味着在多个MR任务之间不需要从HDFS上读/写数据，通过一个单独的Tez任务就能完成所有的计算。
它提供了会话和可重用的容器，因此延迟低，能够尽可能地避免重组。

　　使用新的Tez引擎执行这个特殊的Hive查询性能提升将超过100%。

路线图

更加丰富的DAG支持。例如，Samza是否能够使用Tez作为其底层支撑然后在这上面构建应用程序？为了让Tez能够处理Samza的核心调度和流式需求开发团队需要做一些支持。Tez团队将探索如何在我们的DAG中使用这些类型的连接模式。他们还想提供更好的容错支持，更加有效地数据传输，从而进一步优化性能，并且改善会话性能。
考虑到这些DAG的复杂度无法确定，需要提供很多自动化的工具来帮助用户理解他们的性能瓶颈。

总结

　　Tez是一个支持DAG作业的分布式执行框架。它能够轻而易举地映射到更高级的声明式语言，例如Hive、Pig、Cascading等。它拥有一个高度可定制的执行架构，因而我们能够在运行时根据与数据和资源相关的实时信息完成动态性能优化。框架本身会自动地决定很多棘手问题，让它能够顺利地正确运行。

　　使用Tez，你能够得到良好的性能和开箱即用的效率。Tez的目标是解决Hadoop数据处理领域所面对的一些问题，包括延迟以及执行的复杂性等。Tez是一个开源的项目，并且已经被Hive和Pig使用。

关于作者

Arun Murthy 是Apache Hadoop下的MapReduce项目的领导者，自2006年成立以来他一直是Apache Hadoop项目的全职贡献者。他是一个长期的提交者，是Apache Hadoop PMC的成员，共同保持着目前使用Apache Hadoop排序的世界记录。在共同创建Hortonworks之前，Arun在Yahoo公司负责所有的MapReduce代码以及42,000+台服务器的配置部署工作。

Bikas Saha致力于Apache Hadoop项目有一年多了，他是该项目的一个提交者。对于让Hadoop在Windows系统上运行这方面他是一个关键的提交者，他关注YARN和Hadoop计算栈。在从事Hadoop项目之前，他在Dryad分布式数据处理框架上做了大量工作，该框架作为Microsoft Bing基础设施的一部分运行在全世界最大的一些集群上。