设为首页收藏本站

LUPA开源社区

 找回密码
 注册
文章 帖子 博客
LUPA开源社区 首页 业界资讯 开源资讯 查看内容

eBay开源了其大型、高速SQL-on-Hadoop数据库

2014-11-18 15:18| 发布者: joejoe0332| 查看: 1343| 评论: 0|原作者: 云知秋|来自: CSDN

摘要: 在线拍卖网站eBay开源了其名为Kylin的数据库技术,该公司表示这套方案能够对保存在Hadoop当中的PB级数据集进行快速查询。与谷歌以及Facebook等企业相比,eBay并不能算是大数据用户,但该公司确实也在以相当可观的规 ...

  在线拍卖网站eBay开源了其名为Kylin的数据库技术,该公司表示这套方案能够对保存在Hadoop当中的PB级数据集进行快速查询。与谷歌以及Facebook等企业相比,eBay并不能算是大数据用户,但该公司确实也在以相当可观的规模运行着Hadoop等技术方案,而Kylin项目似乎正是其以此为基础实现技术创新的一个绝佳实例。



  eBay公司在上个月二十号的一篇博文中公布了与Kylin项目相关的具体信息,在众多特性当中最引人注目的当数其REST API、ANSI-SQL兼容性、与Tableau以及Excel等分析工具的对接能力以及亚秒级的查询能力。不过,Kylin项目最为独特的能力还是要数其在规模化层面的强大表现。根据eBay方面的说法,Kylin能够对百亿行数据进行查询——相当于体积超过14TB的数据集规模——而且速度表现优于传统Apache Hive工具。



  总体来看,Kylin的运作机制在于从Hive当中获取数据,利用MapReduce对大规模查询操作进行预处理,最后将处理结果以键-值“cuboid”的形式保存在HBase当中。当某位用户利用一组特定变量运行一项Kylin查询时,这些变量所对应的值即可在无需重复处理的情况下直接交付给用户。虽然与多年来业界一直在分析数据库当中所使用的cube并没有什么本质区别,但Kylin所采取的cuboid在设计思路上充分考虑到了HBase的数据结构倾向。


  下面我们来看看eBay公司如何描述Kylin在其内部业务体系中的实际表现:


  在将Kylin贡献给开源社区的同时,我们已经在eBay公司的多个业务部门当中将其应用于生产实践。其中规模最大的用例就是对由120多亿条源记录所生成的超过14TB cube数据进行分析。90%的查询请求在5秒之内。现在,我们拥有更多面向分析师以及业务用户的用例,他们能够访问并轻松通过Tableau仪表板获取相关分析结果——而不再需要借助Hive查询或者shell命令等复杂机制。 



  我们期待着看到Kylin将如何与下一代Hive、Spark SQL以及其它Hadoop环境下的SQL分析项目进行协作,因为Apache Hadoop最新版本当中首度出现的YARN资源管理器方案必然将引发相关配合项目的一波升级浪潮。根据我的个人猜测,Kylin在速度表现上应该略逊于内存内选项或者其它那些无需MapReduce处理机制介入的方案,但规模容纳能力方面却又比二者更强。有鉴于此,对于那些仍然在运行着早期软件版本的Hadoop用户来说——这部分用户所占比例相当之高——Kylin堪称一套稳定而可靠的解决方案。


原文链接:

https://gigaom.com/2014/10/22/ebay-open-sources-a-big-fast-sql-on-hadoop-database/

酷毙

雷人

鲜花

鸡蛋

漂亮
  • 快毕业了,没工作经验,
    找份工作好难啊?
    赶紧去人才芯片公司磨练吧!!

最新评论

关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号   

返回顶部