在之前的新闻《Netflix企业文化与架构设计》一文中我们介绍了Netflix高扩展的企业文化与架构,而作为一家在线影片租赁提供商
Netflix之所以能够在如此大量的用户、海量的数据、复杂的拓扑结构下取得成功,离不开其背后的开源文化与技术。Netflix利用开源或者自己开发的技术,让公司能够在分布于全世界50多个国家的服务器上进行持续地构建和集成;能够对用户所产生的海量行为数据进行分析挖掘从而更好地推荐和改善自身服
务;同时能够通过性能剖析和安全审计保护用户的隐私和数据,下面就让我们来盘点一下Netflix所使用或贡献的开源技术。
大数据 数据是无价的,为了向客户提供极致的服务,Netflix拥有一套完善的大数据技术生态系统用于用户数据的分析和挖掘。Netflix不仅使用
Hadoop、Hive、Pig、Parquet、Presto以及Spark等被广泛采用的开源技术,同时还开发并贡献了一些其他的工具和服务。 Genie:专为Hadoop生态系统定制的一组REST-ful服务集合,用于管理作业和资源,它有两个关键的服务:Execution
Service和Configuration Serice。前者提供了REST-ful
API,用于提交和管理Hadoop、Hive以及Pig作业;后者是一个Hadoop资源的有效储存库,处理元数据的连接以及运行资源上的作业。 Inviso:对Hadoop作业和集群的性能进行详细而深入的剖析。 Lipstick:以一种清晰且可视化的方式展示Pig作业的工作流。 Aegisthus:是一个能够读取Cassandra
SSTable的map/reduce程序,Netflix的大数据平台每天都会利用该工具从Cassandra中读取数据进行分析。
构建和交付工具 Nebula:Netflix开源的Gradle插件集合,可以让开发者更容易地使用Gradle构建、测试和部署项目。 Aminator:EBS AMI创建工具,支持CentOS/RedHat Linux镜像,利用该工具创建的镜像能够运行在EC2实例上。 Asgard:云部署和管理工具,该工具与Aminator配合使用,能够将打包后的AMI从开发者的桌面部署到AWS上。
通用的运行时服务和类库 Netflix的大部分服务都是以云平台为基础和技术栈,云平台由云服务、应用程序类库和应用容器组成,每一部分Netflix都有相应的技术保障。
数据持久化 面对每天数以万亿的行为数据,没有哪一种技术能够独自满足所有的用例,所有潜在的需求,为此Netflix不仅使用了Memcached和Redis等非
持久化内存存储方案,还使用了可搜索的数据存储Elastic,以及高可用的数据存储Cassandra和MySQL。此外,Netflix还创建了一些
其他的辅助工具:
分析、可靠性和性能 在任何一个公司的运营中遥测和指标都具有至关重要的作用,高效的性能指令能够让工程师快速地从大量指标中找出自己所需要的那部分从而更快更有效地做出关键决策。除此之外,成本管理和资源在云端使用情况的可视化服务也不可或缺,Netflix在这些方面使用的工具包括:
安全 对任意类型、任意规模的公司来说安全都是一件越来越重要的事情,Netflix为开源社区贡献了大量的安全工具和解决方案,主要分为两类,一类是能够让安全团队更有效地保护大型动态环境的运维工具和系统;一类是为现代分布式系统提供严格安全服务的安全基础设施组件。
用户界面 世界各地的Netflix会员会通过TV、手机和桌面等各式各样的设备观看视频,为此Netflix使用了Node.js、React和RxJS等先进的
UI技术构建富客户端应用程序。Netflix通过数据驱动的A/B测试实验新的理念,理解每一个功能特性的价值,从而持续地提升产品。此
外,Netflix还使用了以下工具。 Falcor:允许应用程序把所有远端的数据源用一个单独的JSON Graph来表示,提高了数据抓取效率 Restify:一个基于Nodejs的REST应用框架,支持服务器端和客户端 RxJS:JavaScript的Reactive扩展库
via InfoQ |