值得mark的11个开源机器学习项目

2014-12-9 15:33| 发布者: joejoe0332| 查看: 4335| 评论: 0|来自: CSDN

摘要: 随着机器学习越来越受到开发者关注，出现了很多机器学习的开源项目，在本文列举的11个机器学习开源项目中，无论你是Java爱好者还是Python狂人，在这里你都可以找到自己想要的机器学习开源项目。 ...

5. MLlib

　　Apache自己的Spark和Hadoop机器学习库，旨在为大规模和高速度而设计的MLlib自称拥有所有常见的算法和有用数据类型。与任何Hadoop项目一样，Java是MLlib上的基本语言，但是Python用户可以用MLlib NumPy库连接（也用于scikit-learn），并且Scala用户可以针对MLlib编写代码。如果不能设置一个Hadoop集群，MLlib可以在没有Hadoop的情况下部署在Spark上——以及在EC2或Mesos上。

　　Project:MLlib

6. H2O

　　0xdata H2O的算法是面向业务流程——欺诈或趋势预测。Hadoop专家可以使用Java与H2O相互作用，但框架还提供了对Python、R以及Scala的捆绑。

Project: H20
GitHub: https://github.com/0xdata/h2o

7. Cloudera Oryx

　　另一个为Hadoop设计的机器学习项目Oryx由 Cloudera Hadoop distribution 创造者提供。Oryx是为了允许机器学习模型部署在实时流数据上而设计的，如实时垃圾邮件过滤器或推荐引擎。

　　该项目的全新版本暂时定名为Oryx 2，目前正在准备阶段。它使用Apache项目如Spark 和 Kafka实现更高性能，其组件构建走松散耦合路线以便能经得住时间考验。

Project:Cloudera Oryx
GitHub: https://github.com/cloudera/oryx

8. GoLearn

　　谷歌的Go语言已经开始被广泛使用，随着库越来越多，据其开发者Stephen Witworth介绍，GoLearn被构建为Go语言的一体化的机器学习库，目标是“简单可定制”。简单主要是由于数据在库内被加载和处理，因为它是仿照SciPy 和R；可定制性在于库的开放源码特性以及一些数据结构可以很容易地在一个应用程序中扩展。Witworth也为Vowpal Wabbit库创建了一个包装器，其中一个库存放在Shogun工具箱中。

Project:GoLearn
GitHub: https://github.com/sjwhitworth/golearn

123 / 3 页下一页在本页阅读全文