设为首页收藏本站

LUPA开源社区

 找回密码
 注册
文章 帖子 博客
LUPA开源社区 首页 业界资讯 开源资讯 查看内容

大数据开拓者带给人的10大启示

2011-11-22 14:56| 发布者: joejoe0332| 查看: 4652| 评论: 0|原作者: 范平|来自: ZOL

摘要:   毋庸置疑,大数据时代已经来了。那么,我们如何去应对这种局面呢?下面,我们听听拥有此方面经验的专家是如何说的吧。  首先我们要知道,在成百上千TB的信息中,我们该如何充分利用大数据。这完全取决于个人的 ...

  二、衡量数据增长时深知何为贵

  通过对长达20年的医疗记录、研究各种药物的疗效和风险,哈佛医学院吸取到了这样一种教训--在规划数据仓储投资时,不仅仅需要解诸如客户、记录和交易数量等简单问题。虽然病人数量和时限仍然较为稳定,但各种医疗记录却不断丰富起来,因为涌现出了很多新的健康监测技术指标。因此,事先了解所有的动态需求至关重要。


大数据开拓者 带给人的10大启示[组图]
哈佛医学院

  三、数据压缩和削减存储成本

  更好的数据压缩可以节省每TB硬件成本。列存储数据库,比惠普的Vertica、Infobright、ParAccel和Sybase IQ,可以实现30:1或者40:1的压缩比。而行存储数据库,比如EMC Greenplum、IBM Netezza和Teradata,平均4:1的压缩比。这是因为柱状数据可以保持一致,包含邮编、采购订单号码等多种数据。而行状数据,比如与客户相关的属性组合--名称、地址、邮编、采购订单号等等,则不具有这种优势。Aster Data和甲骨文数据库可以提供混合行/列存储功能。甲骨文的Hybrid Columnar Compression可以提供10:1的压缩比。

大数据开拓者 带给人的10大启示[组图]
数据压缩

  压缩比率不同很大程度上取决于数据本身,而且列存储并不总是最好的选择。如果在数据查询的时候需要调用很大属性,行存储方案可能会表现出更好的性能。事实上,行存储数据库经常被企业应用在处理混合查询的数据仓库中,而列存储数据库更多的是集中在海量数据查询中。

  四、分类压缩、减少处理时间

  类似连续性的列数据有利于压缩一样,我们也可以通过数据加载之前进行分类从而提高压缩比。在将数据装载进Sybase IQ至 强,comSCore使用Syncsort DMExpress软件对数据进行分类。该公司的CTO Michael Brown(图示)表示,它可以将10字节的 数据压缩成3、4个字节,而通过分类后的10个字节数据可被压缩成1个字节。“这将给我们存储海量数据提供了另外一种方式 。”

大数据开拓者 带给人的10大启示[组图]
Michael Brown

  此外,分类也可以提高数据处理效率。comScore对URL数据进行分类,从而将Web站点分类查询工作量降到最低。无需加载40个网站页面的URL地址从而在单个会话中进行访问,而只需对它们进行分类就可以在Facebook上露出其中20个页面,GMail上露出12个,其他的则可能会出现在NYTimes.com上面。

  分类数据会触发仅仅3个站点查询,而未分类的数据则会引起多个毫不相关的数据查询。“它有助于节约CPU大部分资源和时间,”Brown说到。完全可以借助SQL语句和自编脚本对数据进行分类。不过,在IBM、甲骨文、SAP、SAS等数据集成软件中,数据分类也是一个常见功能。事实上,Hadoop是一个真正意义上的大规模数据分类和处理的良好选择。


酷毙

雷人

鲜花

鸡蛋

漂亮
  • 快毕业了,没工作经验,
    找份工作好难啊?
    赶紧去人才芯片公司磨练吧!!

最新评论

关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号   

返回顶部