以上图表勾勒出Cube构建引擎(Cube Build Engine)是如何以离线处理方式将关系型数据转化成键-值型数据的。其中的黄线部分还表现出在线分析数据的处理流程。数据请求可以利用基于SQL的工具由SQL提交而产生,或者利用第三方应用程序通过Kylin的RESTful服务来实现。RESTful服务会调用Query Engine,后者则检测对应的目标数据集是否真实存在。如果确实存在,该引擎会直接访问目标数据并以次秒级延迟返回结果。如果目标数据集并不存在,该引擎则会根据设计将无匹配数据集的查询路由至Hadoop上的SQL处、即交由Hive等Hadoop集群负责处理。 以下为关于Kylin平台内所有组件的详细描述。 在Kylin当中,我们使用一套名为Apache Calcite的开源动态数据管理框架对代码内的SQL以及其它插入内容进行解析。Calcite架构如下图所示。(Calcite最初被命名为Optiq,由Julian Hyde所编写,但如今已经成为Apache孵化器项目之一。) Kylin在eBay公司中的应用 在对Kylin进行开源化处理的同时,我们已经在eBay公司的多个业务部门当中将其应用于生产实践。其中规模最大的用例就是对由120多亿条源记录所生成的超过14TB cube数据进行分析。90%的查询请求都能在5秒钟之内获取到返回结果。现在,我们拥有更多面向分析师以及业务用户的用例,他们能够访问这些分析机制并轻松通过Tableau仪表板获取相关结果——而不再需要借助Hive查询或者shell命令等复杂机制。 下一步发展规划 • 在高基数维度上支持TopN算法(即对大量对象进行排序并从中选取前N位结果):目前的MOLAP技术在高基数维度上进行查询时的表现尚算不上完美——例如对单一列中的数百万个不同值进行TopN运算。 与各类搜索引擎类似(正如众多研究人员所指出),倒排索引是此类预构建结果的理想匹配机制。 开源 Kylin已经以开源姿态被交付至技术社区。为了以Kylin为核心发展出更为强大的生态系统,我们目前正提议将Kylin转化为Apache孵化器项目。在Owen O’Malley(Hortonworks公司联合创始人兼Apache成员)与Julian Hyde(Apache Calcite缔造者,目前供职于Hortonworks公司)等Hadoop开发者社区支持者的鼎力协助,我们相信Kylin足以乘开源社区这股强劲的东风顺利跨入新的纪元。 我们欢迎大家加入到Kylin贡献者阵营中来,感兴趣的朋友请点击以下链接以访问Kylin网站并获取更多详尽信息:http://kylin.io. 作为起步,大家并不一定马上就要对核心代码库进行开源贡献,从以下方面着手也是不错的选择: 要获取更多细节信息或者进一步探讨上述议题,大家可以在twitter上关注我们@KylinOLAP或者加入我们的谷歌群组: 总结 Kylin已经在eBay公司内部融入生产环境,专门负责处理规模极端庞大的数据集。这套平台拥有显著的性能优势,实践证明其能够帮助分析师们轻松借助自己所为熟悉的工具对Hadoop当中的数据进行充分利用。我们也乐于推出Kylin的开源版本。欢迎大家给出自己的反馈与建议,我们期待着您参与到这个开源大家庭中来。 转自:http://www.csdn.net/article/2014-10-25/2822286 |