设为首页收藏本站

LUPA开源社区

 找回密码
 注册
文章 帖子 博客
LUPA开源社区 首页 业界资讯 开源资讯 查看内容

Druid创始人Eric Tschetter详解开源实时大数据分析系统Druid

2014-11-12 11:04| 发布者: joejoe0332| 查看: 2889| 评论: 0|原作者: 魏伟|来自: CSDN

摘要: Druid是一个为大型冷数据集上实时探索查询而设计的开源数据分析和存储系统,提供极具成本效益并且永远在线的实时数据摄取和任意数据处理,并且在面对代码部署、机器故障以及其他产品系统遇到不测时能保持100%正常运 ...

  Druid是一个为大型冷数据集上实时探索查询而设计的开源数据分析和存储系统,提供极具成本效益并且永远在线的实时数据摄取和任意数据处理,并且在面对代码部署、机器故障以及其他产品系统遇到不测时能保持100%正常运行。


  2014年10月25日,由eBay、CSDN共同举办的“大数据峰会”在上海举行,Druid创始人Eric Tschetter发表了演讲“Druid之旅,大数据实时分析数据存储框架”,之后Eric接受了CSDN的专访。

很巧,在阿里有一个开源的Java数据库驱动也叫Druid,阿里Druid项目的负责人温少也曾接受过CSDN的采访


  Eric Tschetter本科就读于德克萨斯大学奥斯汀分校,在东京国立情报学研究所拿到了计算机科学的硕士学位。之后在硅谷,Eric加入了Marc Andreessen创办的社交网络平台公司Ning(这个名字取自中文“宁”的拼音);后来Eric又加入了LinkedIn,参与了“People You May Know”产品;离开LinkedIn后,Eric成为了Metamarkets的第一位全职雇员,并在那里开发Druid。目前,Eric为一家非盈利组织Tidepool工作,为糖尿病人提供开源的医疗数字化应用。


Druid创始人 Eric Tschetter


  Druid是一个开源的分布式实时处理系统,旨在快速处理大规模的数据,并能做到快速查询和分析。为烧钱的大数据处理,提供一种更廉价的选择,目前来说是这个领域唯一的开源产品。Druid还将一些基本功能UI化,为非技术人员提供服务。说到与Druid最类似的项目,Eric认为是Google的PowerDrill。

MapReduce和BigTable的论文催生了大数据处理的事实标准Hadoop。Dremel和PowerDrill问世后,很多人都在好奇有哪些开源大数据技术又要兴起,Druid会是其中之一吗?


应用场景

  Druid应用最多的是类似于Metamarkets中的应用场景——广告分析,互联网广告系统监控、度量和网络监控。并且eBay也已经计划将Druid用于生产环境中。


开发团队

  目前Druid被托管在GitHub上,有44个contributor,1000+的关注,Druid 的主要贡献者,包括Metamarkets,Netflix、Yahoo和一些硅谷的创业公司。Druid 的开发人员通过Druid 论坛互动和支持Druid 的开发。笔者刚刚查看了Druid的Google Group,最近一直保持着比较活跃的讨论。

  Eric介绍说,每当他们学到新的东西或有新的想法,总会尽快去实践检验。所以自2011年3月第一条代码提交至今,Druid有了很大的改进。比如数据的存储方式,大概变化了9次,查询流程大概变化了3-4次,各个节点间的相互协调大概变化了3次,但是每个节点制作一件事情的原则没有变化过。Eric说未来可能还会有更多的变化,但是基本的架构不会改变。


Druid的中国元素


中国工程师Fangjin Yang(杨仿今),与Eric一起负责Druid的主要开发工作

  Eric开始Druid项目之后的几个月,Fangjin Yang 加入了这个项目。之后的几年,Eric和Fangjin并肩开发了Druid。Eric和Fangjin到目前为止一直是Druid最主要贡献者。今年,Eric和Fangjin开始了和一些中国公司的合作,帮助这些公司评估Druid以及回答关于Druid的问题。据Eric介绍,在中国,云广天下(西安)网络科技有限公司旗下的YeahMobi正在使用Druid。


文档和支持

  也许是得益于Eric在本科毕业后做过翻译等相关的文档工作,Druid的相关文档编写得很详细、有条理。Eric说,关于这个项目感到最骄傲的事情,就是将其开源了,其他人仅通过Druid和一些相关文档,就可以解决很多问题。

  同时Eric的开发团队,通过一个邮件列表(druid-development@googlegroups.com)为Druid的用户提供支持服务,但是目前还没有专门的赢利公司为其提供支持。


Druid的未来计划

  Druid的未来计划,是继续保持这个开源项目的健康成长。围绕Druid已经聚集了多位来自不同公司的工程师。每位工程师、每个公司都希望看到Druid能够带来新的东西,他们的需求有时相同,有时不同,但是大家协力合作,就能把Druid做得更好。所以Eric希望Druid能成为大家共有的项目,形成一个社区,靠这个社区来指引Duid的发展方向。

  Eric对未来的展望让笔者想起了Docker目前的发展,Eric说如果围绕Druid,能形成像Docker一样的生态系统,的确会是巨大的成功。

  目前,Druid还没有公开的Roadmap,但是Druid已经开始了相关的制定工作,并在尝试和Metamarkets、Yahoo、Netflix和eBay共同合作,同时Eric表示也会参考其他Druid技术实践者的建议。


大数据技术的未来:合久必分,分久必合?

  谈到大数据技术的未来,Eric回顾了60、70年代甚至80年代,关系数据库的发展历史。那时有对象数据库、关系数据库等多种数据库类型,最终关系型数据库成为了主流,其它类型的数据库或者消失或者被边缘化。一直到2006年左右,关系型数据库还是占主导地位,其实70、80年代的数据库类型,都是基于“与存储介质的交互很贵”这样的假定设计的。但随着存储变得越来越廉价,内存越来越便宜,这个假定不成立了,相应的设计架构也需要调整,于是产生了NoSQL。Eric认为大数据技术也是以此为基础的。如今,大家都在基于新的硬件环境,寻找最优的解决方案,数据库技术又走入了新一轮的“百家争鸣”的阶段,特别是近几年出现的多种数据库技术。Eric认为,大概在5-10年之后,数据库技术也会进入新一轮的融合阶段,届时大数据技术才会有清晰的发展方向,或许根据你的应用场景,也将有人能为你提供最佳的解决方案。

  在被问及:“你认为Druid会是未来的方向吗?”Eric坦言说:“我不知道,但我希望是。Druid只是为解决已有的问题提供了一种新的思路,正确与否我还不能肯定,但我知道它解决了Metamarkets等许多公司的问题。但它能解决所有问题吗?答案是否定的,所以我不知道未来数据库技术会向哪个方向融合。”

  Druid是为大型数据集上实时探索查询而设计的开源分析数据存储系统,它的设计意图是在面对代码部署、机器故障以及其他产品系统遇到不测时能保持100%正常运行。它也可以用于后台用例,但设计决策明确定位线上服务。



酷毙

雷人
1

鲜花

鸡蛋

漂亮

刚表态过的朋友 (1 人)

  • 快毕业了,没工作经验,
    找份工作好难啊?
    赶紧去人才芯片公司磨练吧!!

最新评论

关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号   

返回顶部