即将发生的大变化
2013年开端之际,英特尔发起了一个开源项目Rhino,以提升Hadoop及其整个体系的安全能力,并将代码贡献给了Apache。这有望显著加强Hadoop当前的贡献。这一开源项目的总体目标是要支持加密和密钥管理,一个超越Hadoop当前提供的用户及群组ACL的通用授权框架,一个基于认证框架的通用令牌,改善HBase的安全性,改善安全审计。这些任务都被记录在Hadoop、 MapReduce、HBase 和 Zookeeper的JIRA中,择重点摘录如下:
- 加密的静态数据——JIRA 任务 HADOOP-9331 (Hadoop加密编码解码器框架及加密编码解码器的实现) 和 MAPREDUCE-5025 (支持MapReduce中的加密编码解码器的密钥发行和管理) 有直接的关系。第一个侧重于创建一个加密框架及其实现,以支持对HDFS上文件的加密和解密;第二个侧重于为MapReduce提供密钥发行和管理框架,以便能在MapReduce操作过程中对数据加密和解密。为此向Hadoop中引入了一个可分割AES编码解码器的实现,可以对磁盘上分散的数据加密和解密。密钥发行和管理框架可以在MapReduce操作过程中解析密钥的上下文,因此MapReduce作业能够进行加解密操作。他们已经发展出的需求包括MapReduce作业不同阶段的不同选项,并且要支持灵活的密钥获取办法。在一些相关的任务中,ZOOKEEPER-1688 将提供透明的快照加密能力,并在硬盘记录日志,防止敏感信息从静态文件中泄漏出去。
- 基于令牌的认证及统一授权框架——JIRA 任务 HADOOP-9392 (基于令牌的认证及单点登录) 和 HADOOP-9466 (统一授权框架) 也是相互关联的。第一项任务展示了一个跟Kerberos耦合不是那么紧密的基于令牌的认证框架。第二项任务会用基于令牌的框架支持灵活的授权强制引擎,以取代(但能向后兼容)当前的ACL式访问控制。对基于令牌的认证框架,第一项任务计划支持多种认证机制的令牌,比如LDAP 用户名/密码认证,Kerberos,X.509证书认证,SQL认证(基于SQL数据库的用户名/密码认证)和SAML。第二项任务要支持一个先进的授权模型,侧重于基于属性的访问控制(ABAC)和XACML标准。
- 提升HBase的安全性——JIRA 任务 HBASE-6222 (增加每-键值安全) 向HBase添加Apache Accumulo具备但HBase还没有的单元级授权。开发出构建在加密框架上的HBASE-7544 ,把它扩展到HBase,提供透明的表加密。
这些就是Hadoop的主要变化,但有望解决有这些安全需求的组织的安全问题。
结论
在我们这个步履匆匆而又相互关联的世界里,大数据就是王道,在我们对海量数据进行处理和分析时,明白安全的重要性至关重要。这要从弄懂数据及相关的安全策略开始,也要明白组织的安全策略,并知道如何强制执行。本文介绍了Hadoop的安全简史,重点讲了常见的安全问题,并介绍了Rhino项目,给出了一个未来的快照。
关于作者
凯文T.史密斯是Novetta解决方案应用任务方案分部的技术方案及推广指导,他负责向客户提供战略性的技术领导力,开发具有创新性的、数据为本并且高度安全的解决方案。他经常在各种技术会议上演讲,发表过很多技术文章,还编写过许多技术书籍,包括即将出版的《专业Hadoop解决方案》,以及《应用SOA:面向服务的架构及设计策略》,《语义Web:XML,Web服务及知识管理的未来发展指南》等等。可以通过KSmith@Novetta.com联系到他。
致谢
特别感谢Stella Aquilina, Boris Lublinsky, Joe Pantella, Ralph Perko, Praveena Raavicharla, Frank Tyler 和 Brian Uri 对本文的审阅和部分内容的评论。 此外还要感谢克里斯·贝利制作了不断发展的Hadoop大象之“艾比路”这幅插图。 1 Ponemon 研究所, 2013数据泄露的成本研究:全球分析,2013年5月 2 商业内幕,PlayStation网络危机可能让索尼花费了数十亿 3 请参见“CNN/Money –5数据泄露 - 从尴尬到致命”,及维基百科上关于 AOL在匿名化记录上泄漏的研究数据的页面 4 Ponemon 研究所, “你的公司为大数据泄漏做好准备了吗?”, 2013年3月
查看英文原文:Big Data Security: The Evolution of Hadoop’s Security Model |