学习使用开源工具将数据转换为有用信息
数据科学包括数学和计算机科学,是以从数据中提取价值为目的的。本文介绍了在这个快速发展领域中的数据科学和用于调查的突出开源工具。 PDF (291 KB)
数据科学的目标是从一组数据集中提取有用的信息。企业很久以前已经意识到了作为商业资产的数据的价值。但巨大的数据需要新的方法去理解和高效管理。越来越
多的工程师和科学家们正在构建运用数据科学来处理海量数据的系统。本文将向你介绍数据科学领域以及当今数据科学领域可用的开源工具。 数据科学与数据科学家
数据科学始于数据收集。收集的候选者可以是公开的数据或者来自内部商业处理的数据(例如,网站统计)。接下来是精炼:这是一个发挥创造性的过程,将数据减少至那些能回答专业问题的有用信息。比较典型的是,这些问题定义了提取信息的方法。在数据收集和精炼的步骤中,还有其它重要的方面,比如数据清洁(或预处理)和数据可视化。
你也可以把数据科学看作是一个商业加工。O'Reilly的Mike Loukides通过一个非常有说服力的案例来说明数据科学不仅仅可以将数据转化为信息,还可以转化为产品。从这个角度看,这一领域就像是现代式的淘金——从如山的信息中争相搜索出有价值的金砖。 数据淘金方面的探索者被称为数据科学家。由于商务方面已经认识到自身数据的价值,所以对天才的多学科工程师和科学家的需求在增长。数据科学家一定具有计算 机科学、数学以及统计学方面的技术。理想情况下,他们还应当具有行业知识-对数据本身的理解(医疗行业、金融行业、互联网行业以及其它行业)。图1把数据 科学表示为计算机科学、数学和统计学以及行业知识的交集。
图1.数据科学涉及到的关键学科 数据科学家使用上面所述的所有技术就可以把行业知识和数学知识转化为挖掘数据并提取为有用信息的(计算机科学方面的)应用。数据科学的核心是多个学科的交叉点(它还可能包含诸如机器学习和信息获取方面的知识)。
如今大量需要具有大数据分析经验的工程师和科学家。麦肯锡咨询有限公司预测:到2018年,满足数据科学家角色的人员将会出现短缺。数据科学的思想和实现 方法对许多其它学科也是很有用的。即使在你不愿意成为数据科学家的情况下,数据科学方面的技术仍然可以很好的补充你的工程技术。 |