设为首页收藏本站

LUPA开源社区

 找回密码
 注册
文章 帖子 博客
LUPA开源社区 首页 IT综合资讯 查看内容

大数据安全:Hadoop安全模型的演进

2013-11-7 10:02| 发布者: joejoe0332| 查看: 4638| 评论: 0|原作者: Kevin T. Smith|来自: infoQ

摘要:   敏感信息的安全和保护是当今人们最关心的问题之一。进入大数据时代,很多组织都在从各种源头收集数据,进行分析,并基于对海量数据集的分析做出决策,因此这一过程中的安全问题变得愈发重要。与此同时,HIPAA和 ...


  Hadoop安全(简)史


  Doug Cutting和Mike Cafarella最初为Nutch项目开发Hadoop时并没有考虑安全因素,这是众所周知的事实。因为Hadoop的最初用例都是围绕着如何管理大量的公共web数据,无需考虑保密性。按照Hadoop最初的设想,它假定集群总是处于可信的环境中,由可信用户使用的相互协作的可信计算机组成。


  最初的Hadoop中并没有安全模型,它不对用户或服务进行验证,也没有数据隐私。因为Hadoop被设计成在分布式的设备集群上执行代码,任何人都能提交代码并得到执行。尽管在较早的版本中实现了审计和授权控制(HDFS文件许可),然而这种访问控制很容易避开,因为任何用户只需要做一个命令行切换就可以模拟成其他任何用户。这种模拟行为非常普遍,大多数用户都会这么干,所以这一已有的安全控制其实没起到什么作用。


  在当时,考虑到安全问题的组织把Hadoop隔离在专有网络中,只有经过授权的用户才能访问。然而由于Hadoop内部几乎没有安全控制,在这样的环境中也会出现很多意外和安全事故。善意的用户可能会犯错(比如用一个分布式删除在几秒内就会删除大量数据)。所有用户和程序员对集群内的所有数据都有相同的访问权限,所有任务都能访问集群内的任何数据,并且所有用户都可能会去读取任何数据集。因为MapReduce没有认证或授权的概念,某个顽劣的用户可能为了让自己的任务更快完成而降低其他Hadoop任务的优先级,甚至更坏,直接杀掉其他任务。


  随着Hadoop在数据分析和处理平台中的地位日益凸显,安全专家们开始关心来自Hadoop集群内部的恶意用户的威胁。恶意开发人员能轻易写出假冒其他用户Hadoop服务的代码来(比如写一个新的TaskTracker并将其注册为Hapdoop服务,或者冒充hdfs或mapred用户,把HDFS里的东西全删掉等等)。因为DataNode没有访问控制,恶意用户可以绕过访问控制从DataNode中读取任意数据块,或将垃圾数据写到DataNode中破坏目标分析数据的完整性。所有人都能向JobTracker提交任务,并可以任意执行。


  因为这些安全问题,Hadoop社区意识到他们需要更加健壮的安全控制,因此,雅虎的一个团队决定重点解决认证问题,选择Kerberos作为Hadoop的认证机制,这在他们2009年的白皮书上有记录。


  在Hadoop发布.20.20x版本时他们实现了自己的目标,该版本采用了下面这些机制:


  • Kerberos RPC (SASL/GSSAPI) RPC连接上做相互认证——用SASL/GSSAPI来实现Kerberos及RPC连接上的用户、进程及Hadoop服务的相互认证。
  • HTTP Web控制台提供即插即用的认证——也就是说web应用和web控制台的实现者可以为HTTP连接实现自己的认证机制。包括(但不限于)HTTP SPNEGO认证。
  • 强制执行HDFS的文件许可——可以通过NameNode根据文件许可(用户及组的访问控制列表(ACLs))强制执行对HDFS中文件的访问控制。
  • 用于后续认证检查的代理令牌——为了降低性能开销和Kerberos KDC上的负载,可以在各种客户端和服务经过初始的用户认证后使用代理令牌。具体来说,代理令牌用于跟NameNode之间的通讯,在无需Kerberos服务器参与的情况下完成后续的认证后访问。
  • 用于数据块访问控制的块访问令牌——当需要访问数据块时,NameNode会根据HDFS的文件许可做出访问控制决策,并发出一个块访问令牌(用HMAC-SHA1),可以把这个令牌交给DataNode用于块访问请求。因为DataNode没有文件或访问许可的概念,所以必须在HDFS许可和数据块的访问之间建立对接。
  • 用作业令牌强制任务授权——作业令牌是由JobTracker创建的,传给TaskTracker,确保Task只能做交给他们去做的作业。也可以把Task配置成当用户提交作业时才运行,简化访问控制检查。
  • 把这些整合到一起让Hadoop向前迈出了一大步。自那之后,又实现了一些值得称道的修改:
  • 即插即用的认证HTTP SPNEGO认证——尽管2009年的Hadoop安全设计重点是即插即用的认证,但因为RPC连接(用户、应用和Hadoop服务)已经采用了Kerberos认证,所以Hadoop开发者社区觉得如果能跟Kerberos保持一致更好。现在Hadoop web控制台被配置成使用HTTP SPNEGO这一用于web控制台的Kerberos实现。这样可以部分满足Hadoop亟需的一致性。
  • 网络加密——采用了SASL的连接可以配置成使用机密保护质量(QoP),在网络层强制加密,包括使用Kerberos RPC的连接和使用代理令牌的后续认证。Web控制台和MapReduce随机操作可以配置成使用SSL进行加密。HDFS文件传输器也能配置为加密的。


  自对安全性进行重新设计以来,Hadoop的安全模型大体上没发生什么变化。随着时间的推移,Hadoop体系中的一些组件在Hadoop之上构建了自己的安全层,比如Apache Accumulo,提供单元级的授权,而HBase提供列和族系一级的访问控制。


  Hadoop当前所面临的安全挑战


  组织在保证Hadoop的安全性时会面临一些安全方面的挑战,在我和Boris Lublinsky 及 Alexey Yakubovich写的新书中,我们用了两章的篇幅集中讨论Hadoop的安全问题,其中一章的重点是Hadoop本身的安全能力,另外一章的重点是对Hadoop的安全性进行补充的策略。


  常见的安全问题有:


  • 如何强制所有类型的客户端(比如web控制台和进程)上的用户及应用进行验证?
  • 如何确保服务不是流氓服务冒充的(比如流氓TaskTracker和Task,未经授权的进程向 DataNode 出示ID 以访问数据块等?)
  • 如何根据已有的访问控制策略和用户凭据强制数据的访问控制?
  • 如何实现基于属性的访问控制(ABAC)或基于角色的访问控制(RBAC)?
  • 怎么才能将Hadoop跟已有的企业安全服务集成到一起?
  • 如何控制谁被授权可以访问、修改和停止MapReduce作业?
  • 怎么才能加密传输中的数据?
  • 如何加密静态数据?
  • 如何对事件进行跟踪和审计,如何跟踪数据的出处?
  • 对于架设在网络上的Hadoop集群,通过网络途径保护它的最好办法是什么?


  这其中很多问题都能靠Hadoop自身的能力解决,但也有很多是Hadoop所无能为力的,所以行业内涌现出了很多Hadoop安全补充工具。厂商们发布安全产品来弥补Hadoop的不足有几个原因:


  1. 没有静态数据加密。目前HDFS上的静态数据没有加密。那些对Hadoop集群中的数据加密有严格安全要求的组织,被迫使用第三方工具实现HDFS硬盘层面的加密,或安全性经过加强的Hadoop版本(比如今年早些时候英特尔发布的版本)。
  2. Kerberos为中心的方式——Hadoop依靠 Kerberos做认证。对于采用了其他方式的组织而言,这意味着他们要单独搭建一套认证系统。
  3. 有限的授权能力——尽管Hadoop能基于用户及群组许可和访问控制列表(ACL)进行授权,但对于有些组织来说这样是不够的。很多组织基于XACML和基于属性的访问控制使用灵活动态的访问控制策略。尽管肯定可以用Accumulo执行这些层面的授权过滤器,但Hadoop的授权凭证作用是有限的。
  4. 安全模型和配置的复杂性。 Hadoop的认证有几个相关的数据流,用于应用程序和Hadoop服务的Kerberos RPC认证,用于web控制台的HTTP SPNEGO认证,以及使用代理令牌、块令牌、作业令牌。对于网络加密,也必须配置三种加密机制,用于SASL机制的保护质量,用于web控制台的SSL,HDFS数据传输加密。所有这些设置都要分别进行配置,并且很容易出错。


  如果Hadoop如今还不具备实现者所要求的安全能力,那么他们只能转而集成第三方工具,或使用某个厂商提供的安全加强版Hadoop,或采用其他有创造性的办法。



酷毙

雷人

鲜花

鸡蛋

漂亮
  • 快毕业了,没工作经验,
    找份工作好难啊?
    赶紧去人才芯片公司磨练吧!!

最新评论

关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号   

返回顶部