5. MLlib
Apache自己的Spark和Hadoop机器学习库,旨在为大规模和高速度而设计的MLlib自称拥有所有常见的算法和有用数据类型。与任何Hadoop项目一样,Java是MLlib上的基本语言,但是Python用户可以用MLlib NumPy库连接(也用于scikit-learn),并且Scala用户可以针对MLlib编写代码。如果不能设置一个Hadoop集群,MLlib可以在没有Hadoop的情况下部署在Spark上——以及在EC2或Mesos上。 Project:MLlib 6. H2O
0xdata H2O的算法是面向业务流程——欺诈或趋势预测。Hadoop专家可以使用Java与H2O相互作用,但框架还提供了对Python、R以及Scala的捆绑。 Project:
H20
7. Cloudera Oryx
另一个为Hadoop设计的机器学习项目Oryx由 Cloudera Hadoop distribution 创造者提供。Oryx是为了允许机器学习模型部署在实时流数据上而设计的,如实时垃圾邮件过滤器或推荐引擎。 该项目的全新版本暂时定名为Oryx 2,目前正在准备阶段。它使用Apache项目如Spark 和 Kafka实现更高性能,其组件构建走松散耦合路线以便能经得住时间考验。 Project:Cloudera Oryx 8. GoLearn
谷歌的Go语言已经开始被广泛使用,随着库越来越多,据其开发者Stephen Witworth介绍,GoLearn被构建为Go语言的一体化的机器学习库,目标是“简单可定制”。简单主要是由于数据在库内被加载和处理,因为它是仿照SciPy 和R;可定制性在于库的开放源码特性以及一些数据结构可以很容易地在一个应用程序中扩展。Witworth也为Vowpal Wabbit库创建了一个包装器,其中一个库存放在Shogun工具箱中。 Project:GoLearn |