大数据安全:Hadoop安全模型的演进

2013-11-7 10:02| 发布者: joejoe0332| 查看: 4803| 评论: 0|原作者: Kevin T. Smith|来自: infoQ

摘要: 　　敏感信息的安全和保护是当今人们最关心的问题之一。进入大数据时代，很多组织都在从各种源头收集数据，进行分析，并基于对海量数据集的分析做出决策，因此这一过程中的安全问题变得愈发重要。与此同时，HIPAA和 ...

　　敏感信息的安全和保护是当今人们最关心的问题之一。进入大数据时代，很多组织都在从各种源头收集数据，进行分析，并基于对海量数据集的分析做出决策，因此这一过程中的安全问题变得愈发重要。与此同时，HIPAA和其他隐私保护法之类的法律法规也要求组织加强对这些数据集的访问控制和隐私限制。来自内部和外部攻击者的网络安全漏洞与日俱增，通常都要数月之后才能发现，而那些受此影响的人正在为此付出代价。没能对他们的数据做出恰当访问控制的组织将受到起诉，出现在负面报道中，并将面临监管机构的罚款。

　　请想一想下面这些让人大开眼界的统计数据：

赛门铁克和Ponemon研究所今年公布的一项研究表明，一个安全漏洞在美国的平均组织化成本是540万美元¹。另据最近一项研究表明，仅仅网络犯罪在美国造成的损失每年就有140亿美元之多。
2011年索尼游戏机网络中出现的漏洞可以算是近代最大的安全漏洞之一，专家们估计索尼与该漏洞相关的损失大约在27亿到240亿美元之间（范围很大，但这个漏洞太大了，所以几乎难以对其进行量化）。²
Netflix和AOL已经因为其管理的大量数据和对个人信息的保护而受到金额达数百万美元的起诉（某些已经立案），尽管他们已经对这些数据做了“匿名化”处理并且是为了研究才公布的。³
跟安全漏洞相关的除了可量化的成本（客户和业务合作伙伴的损失，诉讼，监管罚款），经历此类事件的组织的可信度和声誉还会受到影响，甚至可能会导致公司歇业。⁴

　　简而言之，如果没有恰当的安全控制，大数据很容易变成花费巨大的大问题。

　　对于处理大数据的组织来说这意味着什么？意味着你拥有的数据越多，对数据的保护就越重要。意味着不仅要安全有效地控制离开自有网络的数据，还必须做好网络内部的数据访问控制。依据数据的敏感程度，我们可能要确保数据分析师能看到的数据是可以让他们分析的数据，并且必须明白发布这些数据及其分析结果可能产生的后果。仅Netflix数据泄漏一个案例就足以表明，即使已经试图对数据做了“匿名化”处理，也可能会发布一些意料之外的信息——一些在差异化隐私领域标明的东西。

　　Apache Hadoop是最流行的大数据处理平台之一。尽管最初设计Hadoop时根本没考虑安全问题，但它的安全模型在不断地演进。Hadoop的兴起也招致了很多批判，并且随着安全专家不断指出其潜在的安全漏洞及大数据的安全风险，使得Hadoop一直在改进其安全性。“Hadoop安全”市场曾出现过爆炸性的增长，很多厂商都发布了“安全加强”版的Hadoop和对Hadoop的安全加以补充的解决方案。这类产品有Cloudera Sentry、 IBM InfoSphere Optim Data Masking、英特尔的安全版Hadoop、DataStax企业版、 DataGuise for Hadoop、用于Hadoop的Protegrity大数据保护器、Revelytix Loom、Zettaset 安全数据仓库，此外还有很多，这里就不再一一列举了。与此同时，Apache也有 Apache Accumulo这样的项目，为使用Hapdoop提供了添加额外安全措施的机制。最终还出现了 Knox网关 (由HortonWorks贡献)和Rhino项目(由英特尔贡献)这样的开源项目，承诺要让Hadoop本身发生重大改变。

　　要让Hadoop达到安全性要求的巨大需求使得Hadoop一直在发生着变化，这也是我要在本文中重点讨论的内容。

12 3 / 3 页下一页在本页阅读全文

酷毙

雷人

鲜花

鸡蛋

漂亮

收藏分享邀请

上一篇：前CEO海因斯致员工的信:仍是黑莓最忠诚粉丝下一篇：开发人员指南：如何为未来汽车技术做好开发准备？

快毕业了，没工作经验，
找份工作好难啊？
赶紧去人才芯片公司磨练吧!!

帐号		自动登录	找回密码
密码			注册

大数据安全:Hadoop安全模型的演进

最新评论