科学数据和开放源码

2013-9-23 11:42| 发布者: joejoe0332| 查看: 3064| 评论: 0|原作者: 几点人, ley, super0555, 青崖白鹿, Garfielt|来自: oschina

摘要: 　　学习使用开源工具将数据转换为有用信息　　数据科学包括数学和计算机科学，是以从数据中提取价值为目的的。本文介绍了在这个快速发展领域中的数据科学和用于调查的突出开源工具。 PDF (291 KB) 　　数据 ...

　　Hadooop,Mahout和Spark

　　互联网给了我们收集大量用户行为和习惯数据的机会。Apache Hadoop是处理大数据的首选框架。对数据科学来讲，Hadoop是非常重要的，因为它是一个进行分布式数据处理的可扩展框架。并不是所有的数据科学问题都需要进行大数据处理，不过当你的问题涉及到互联网级数据的时候，Hadoop就是理想的选择。实现谷歌页面排名算法的MapReduce框架就是数据科学在大数据处理框架早期实现的例子。（Hadoop实现了MapReduce。）Apache Pig可以让你更容易地访问Hadoop，而且它还引入了一种用来自动构建MapReduce应用的查询式语言。

　　Apache Mahout是Hadoop平台上可扩展性机器学习算法的具体实现。Mahout包括集群算法的可扩展性实现和（用于实现推荐系统的）批处理方式、多方协作的过滤算法的可扩展性实现。

　　另一个值得一提处理大数据的解决方案是Spark框架。Spark框架包含了一些优化措施，比如在内存内进行具有失效容忍机制的集群计算。

　　R项目

　　经常能在数据挖掘人员的工具箱里发现这样的工具：一种称作R的编程语言和开发环境。R关注的是统计计算和图形化。R的学习相对简单，而且在数据分析领域得到了广泛的应用。由于R是开发源代码的，而且是免费的，因此它是一种具有广泛用户基础的流行的语言。

　　R是一个多模式的语言，即它支持面向对象的编程、函数式编程，过程型编程以及命令行式编程风格。R语言是通过命令行接口来解释执行的，而且它还包括丰富的生产级别的图形化功能。统计图形化是其首先创造的。另外，通过使用其他软件包可实现动态的和交互式图形。图3展示了使用R语言生成的曲线图的例子:

　　图3.使用R语言实现的三维sinc曲线。

Screen capture of an image showing a sample 3D sinc plot that was generated with R

　　R编程语言是用C和Fortran语言开发的。R中的许多标准的内部函数都是用R语言自身编写的。R支持多种语言混合式编程，这样就能够让你从如C和Java ^TM语言来访问R对象。利用package功能，你就可以很容易地扩展R的功能。package可以使用R、C、Java和C编程语言编写。

　　脚本语言

　　像Python，Ruby，Perl这一类多泛型脚本语言为程序开发和部署提供了专业的平台。并且，他们也是理想的做产品原型和测试创意的工具。这些语言也支持各种数据存储和通信格式，比如XML，Json，同时还提供了各种各样的科学计算和机器学习的开源库。Python很明显是这个领域的领头羊，这可能是因为Python对非计算机科学领域的用户来说是最容易学的语言吧。在数据科学工作中，对Python的掌握通常是必须的。

　　SciPy 和 scikit-learn

　　SciPy包把Python扩展到了科学编程的领域。她支持各种功能，包括并行编程工具，集成功能，常微分方程求解功能，甚至包括C/C++代码的python扩展。

　　通SciPy相关的是scikit-learn，这是一个基于python的机器学习包。scikit-learn包含机器学习领域的各种算法，可以实现监督学习（支持向量机，贝叶斯），无监督学习（聚类算法），以及其他的一些数据集操作的算法。

　　这两个包大大扩展了Python作为数据科学平台使用的功能。

1 234 / 4 页下一页在本页阅读全文