数据科学应用在哪些地方
像云计算一样,数据科学正快速地获得关注、得到采用。根据谷歌搜索透视(以前的谷歌趋势)的统计结果,与这篇文章发表的前一年相比,数据科学方面的关注大 约已经翻倍。谷歌搜索透视本身就是数据科学实践的一个例子。图2展示了在2011年夏季到2012年春季期间互联网搜索方面的数据科学的使用频率得到迅猛 的增长:
图2.谷歌搜索透视上数据科学关注度方面的数据
数据科学快速地成为各种组织获取在线数据的主要技术手段(不管是爬取方式采集的还是根据像点击这样的用户行为网站内部采集)。像谷歌、亚马逊、脸谱和LinkedIn这些主要的互联网站点都有自己的数据科学团队处理他们自身的数据。 谷歌的页面排名算法的开发就是数据科学方面开发的早期的例子。谷歌爬取站点,然后给每个页面的伤的超链接指定一个数字权重,通过这个数字权重可以衡量这些 超级链接的相对重要性。(页面排名的所有详细信息只有谷歌自身清楚。)这个算法把页面内容的排名方式做为搜索方面的功能提供给大家。
像亚马逊和沃尔玛这样的大型在线零售商使用数据科学试图增加销售。它们根据用户搜索的商品和过去采购的商品向各个用户自动生成推荐列表。
LinkedIn是一个专业的社交网站,它维护着大量与个人相关的数据以及这些人的职业、兴趣和关系等数据。如此大量的社交数据就会产生多种推荐功能(比对对个人的、对一个组的和对一个公司的)和更深入的挖掘这些数据而生成LinedIn新产品的项目。 数据科学在互联网应用方面的一个令人眼睛一亮的例子是公司bitly。表面上看,bitly是一个让用户缩短任何URL为不超过19个字符的URL(这个 URL将永久存储在bitly的数据中心)的服务。对缩短后的URL的引用都会从bitly重新定向到原来的URL。然后bitly可以看到人们缩短了哪 个URL和其他用户点击的哪个URL。这种方法提供了大量的数据,这样bitly(和它的首席科学家希拉里.梅森)可以使用这些数据生成大量有关浏览习惯 方面的统计结果。注册到bitly的用户可以看到什么时候点击了他缩短的URL,是通过哪种推荐方式(电子邮件客户端、推特或者其他URL)进入的,以及 来自哪个国家的点击。商业公司还可以使用bitly追踪对某些网页内容访问的用户行为。 数据科学的开源工具
正如计算机编程不局限于一个语言或开发环境,数据科学也并不与一个工具或工具套件有关。在开源领域有一批丰富的工具可以促进数据科学的发展。它们包括大数据的数值计算工具,和用在复杂处理开发中的可视化和原型设计工具。表1列出了数据科学家可用的优秀开源工具和它们对应的角色: 表1. 用于数据科学的开源工具
工具 描述 Apache Hadoop 处理大数据的框架 Apache Mahout 应用于Hadoop的可扩展的机器学习算法 Spark 数据分析的集群计算框架 用于统计计算的R项目 易理解的数据操作和图形绘制 Python,Ruby,Perl 原型和产品的脚本语言 Scipy Python Python科学计算包 scikit-learn Python Python机器学习包 Axiis 交互式数据可视化工具
表1中列举的并不详尽,但代表了数据科学家工具箱内的一些核心元素。开源领域也充满了高度专业化和特定领域的库和工具(例如,用于交互式地图可视化和文字分析的实用工具)。 |