Apache Drill Apache Drill的设计灵感源自谷歌Dremel系统,旨在为大规模数据集带来极低的交互分析延迟。Drill支持多种数据来源,包括HBase、Cassandra、MongoDB以及传统关系数据库。Hadoop虽然能为我们带来可观的数据吞吐能力,但分析其中的内容则要花费数分钟甚至数小时时间。在Drill的帮助下,大家将拥有理想的响应速度,从而实现交互式操作;这样一来,快速分析并获取有价值结论将变得轻松而愉快。 -- Steven Nuñez 官方网站:http://incubator.apache.org/drill/ Gephi 图形理论已经全面延伸到应用程序的各个领域。我们可以利用链式分析调查相关贸易商与员工,从而揪出可疑的交易活动。一旦明晰系统内关键性连接点的状况,我们就能以直观方式审视复杂的IT环境。在多位专家、企业联合组织的开发活动中,Gephi作为一款可视性发现工具,能够支持多种图形类型以及高达百万级别的网络节点规模。大家可以从维基、论坛以及各类教学网站上找到丰富的指导性资料,活跃的技术社区也为我们带来层出不穷的插件选项——总而言之,大家在使用Gephi的过程中很可能无需从零做起。 -- Steven Nuñez Neo4j 作为一款具备敏捷性且速度极为出众的图形数据库,Neo4j能够以多种方式为用户提供帮助,包括社交应用、推荐引擎、欺诈活动检测、资源验证以及数据中心网络管理等等。Neo4j目前在性能提升(查询结果流处理速度)及集群化/HA支持表现方面仍然处于稳步发展当中。 -- Michael Scarlett 官方网站:http://www.neo4j.org/ MongoDB 在众多NoSQL数据库当中,最具人气的也许要数MongDB。它采用二元形式JSON文档实现数据存储,从而支持多种多样的文档形式、帮助开发人员获得远超过传统关系数据库的自由发挥空间——后者强制要求我们在众多列表之间使用严格的平面开发模式。除此之外,MongoDB还提供开发人员需要从关系数据库中获得的全部功能。 2013年对于MongoDB发展史来说相当重要,今年我们迎来了两款新版本外加一系列新功能,其中包括文本搜索以及地理空间支持。新版本在性能改进方面也表现出色,例如采用并发式索引机制以及速度更快的JavaScript引擎(V8)。 -- Michael Scarlett 官方网站:http://www.mongodb.com/ Couchbase Server 与其它NoSQL数据库类似且与大部分关系数据库不同,Couchbase Server并不要求用户在插入数据之前首先创建什么架构。Couchbase Server的特性之一在于其内存缓存库。这项功能允许开发人员以无缝化方式由内存缓存环境向其它体系过渡,数据复制效果与而用性都令人满意,而且不会给应用程序造成停机。其2.0版本还增加了文档数据库功能。2.1版本在此基础上纳入跨数据中心复制与更为强大的存储性能。 -- Michael Scarlett 官方网站:http://www.couchbase.com/why-nosql/nosql-database Paradigm4 SciDB SciDB是一套分布式数据库系统,利用并行处理对数据流进行实时分析。该系统的全部关注重点都放在大量科学数据集的支持效果上。它回避了关系数据库中常见的行、列模式,转而使用更适合有序数据集——例如时间序列及位置数据——的原生数列结构。与关系数据库或者MaoReduce不同,SciDB提供一套统一解决方案,能够在不涉及Hadoop多层基础设施与数据信息内容的前提下实现跨集群扩展。 -- James R. Borck 官方网站:http://scidb.org/ 原文链接:Bossie Awards 2013: The best open source big data tools |