面对海量的业务数据,Hadoop和其他工具正在视图揭示深奥的企业与外部数据的关键内幕。
在追求竞争优势的无止境征程中,企业开始求助于企业与外部数据的大型信息库来发现趋势、统计数据以及其 他帮助决定下一步行动的全面、精确的信息。这些数据以及相关工具、平台和分析技术常常被称之为“大数据”(Big Data)。如今,“大数据”这一术语在技术人员和IT经理等群体中变得越来越流行。 虽然决策者意识到“大数据”中存在的价值,但对大多数企业而已,这一直是一种难以得到的价值。但这正是
IT部门可以发挥作用的地方。IT部门可以开发让研究人员能够深入大型数据中进行分析,并发现重要趋势的服务。换句话说,IT将证明自己是使“大数据”的
承诺变为现实的催化剂。 NOAA利用“大数据”进行气象、生态系统、天气和商务研究。NASA则将“大数据”用于航空和其他领 域。医药公司和能源公司利用“大数据”获得更真实的结果,例如药品测试和地球物理分析。《纽约时报》使用“大数据”工具进行文本分析和Web信息挖掘。迪 斯尼则利用它们关联和了解跨不同商店、主题公园和Web资产的客户行为。 “大数据”对今天企业的价值还体现在另外一方面。大型机构面临着维护海量结构化和非结构化数据(从数据 仓库中的交易数据,到雇员的微博,从供应商记录到管理文件)的需要,以遵从政府的法规。最近的几场官司更是对这种需求起到了推波助澜的作用,它们促使企业 保留大量的文档、电子邮件和其他在打官司时实施电子发现(e-Discovery)可能需要的电子通信记录(例如即时消息和IP电话)。 也许,那些追逐“大数据”的机构面临的最大挑战是获得一种平台,这种平台可以保存与访问所有当前与未来 的信息,并高性价比地在线提交信息供分析之用。这意味着一种高可伸缩的平台。这类平台由存储技术、查询语言、分析工具、内容分析工具以及传输基础设施(其 中有很多需要由IT部门部署和维护运营的设备)构成。 目前有许多获得这些工具的专有与开源资源。这些工具常常来自新兴厂商,但也有像亚马逊和谷歌这样的知名 云技术公司。事实上,云的使用解决了在数据存储和计算能力方面“大数据”的可伸缩性问题。但是,“大数据”不一定采用“自助式”的部署。IBM和EMC等 大厂商同样提供用于“大数据”项目的工具,这些工具的费用会很高,企业需要付出更多的部署成本。 |