Infchimps处理一百万倍的混合案例之五:Infchimps处理一百万倍的混合(mashup) 问一下Phillip "Flip" Krmer哪里能找到几乎任何的列表、电子表格或数据集,他会很高兴地向你介绍他的公司InfChimps,这家公司自称是"全世界的数据仓库"。 每个月都有成千上万的人访问该网站进行搜索,查询特定的数据。最近,该网站的用户在查询推特和社交网络数据。其较为传统的数据集包括其他热门数据,比如金融、体育比赛和股票数据。 Krmer表示,当然,用户们在别的地方也能查询这些数据集,但是他们常常访问InfChimps,未必是由于缺少数据或者很难获得数据,而是由于别处获取数据的成本极其高昂,或者数据采用了不适合使用的格式--至少对Infchimps面向的开发人员这个客户群来说是这样。 这家公司正在装配一个数据存储库,里面含有成千上万的公共和商业数据集,许多数据集达到了TB级。现代机器学习算法通过借助数据的一般结构,深入分析数据;即便数据有机地嵌入到链接数据集里面,也是如此。当然,所有这些工作会带来一个复杂的数据环境,势必需要一种能够跨多个对象运行的平台,无论对内部(数据收集和管理方面)来说,还是对平台用户来说,都是如此。 Infchimps让用户们可以借助使用Hadoop以及亚马逊云和Rackspace云的基础设施,充分利用数据。你从下面可以看到,这家公司充分利用了弹性Hadoop,还利用了亚马逊网络服务(AWS)和Rackspace,同时在后端上使用Hadoop满足自己的要求。 这家公司让用户可以随时获取自己所需的Hadoop资源,无论这些是预定资源、临时资源还是专用资源。这种灵活的功能能够支持夜间批处理作业、合规或测试集群、科学系统和生产型系统。加上为基于Hadoop的功能新增了Irnfan(Infchimps的自动化系统配置工具)这一基础,弹性Hadoop让用户可以专门为手头的作业调整资源。Infchimps声称,这简化了根据需要时,映射或化简专门机器、高计算机器、高内存机器等机器的过程。 Hadoop在挖掘军事情报方面的作用案例之六:Hadoop在挖掘军事情报方面的作用 Digital Reasning声称,就其中一个核心市场:美国政府而言,它在"自动理解大数据"方面一路领跑。 Digital Reasning致力于实现这个目标,为此最近竭力梳理来自美国情报部门的海量的非结构化文本数据,寻找可能危及国家安全的威胁。这款专门定制的软件用于面向实体的分析(entity-riented analytics),已成为Synthesys技术的核心,这项技术则是其业务的立足之本。 该公司使用Cludera的发行版,而且其Synthesys平台支持分布式的、面向列的开源数据库HBase。据Digital Reasning声称,"这种集成让我们得以获得超大规模处理功能,并且为政府和商业市场提供复杂数据分析能力。" 公司首席执行官Tim Estes在下面的幻灯片中具体介绍了公司的基础设施和这一使用场景: "Cludera及其Hadoop专家小组与我们紧密合作,在复杂分析领域取得了新的突破。Cludera和Digital Reasning共同为要求极高的客户提供了针对极其庞大的不同数据集,识别和关联实体的功能,"Digital Reasning的首席执行官Tim Estes如是说。 他继续说,以前,只能"孤立地分析关键情报数据孤岛",但是Synthesys集成了Cludera的Apache Hadoop(CDH3)和HBase支持功能后,我们可以把用于自动理解数据的算法与能以前所未有的方式处理规模和复杂性,把各部分联系起来的平台结合起来。" |