CSDN:本次开源以后的商业模式将会如何?对于客户来说他们获得的服务质量如何来保证? 刘伟光:Pivotal这次开源计划以后的销售策略其实是有两种。一种是订阅License(许可证),就是我们的软件商业版本。同时我们也保留以前永久License销售模式,针对一些特定的客户群体。对于Pivotal提供的服务来说,跟具体license(许可证)形式没有关系,只要客户在Pivotal软件许可证的范围内,我们都会一如既往的提供高质量的企业级服务 CSDN:企业过渡到这套企业大数据平台上的挑战? 刘伟光:其实这些过渡我们都可以帮助用户很简单的解决。例如,除了12306之外,Pivotal的技术在中国的市场呈现用户数量激增的状态,其中不乏像百度、京东、携程、海尔和中航信,中国移动,中国联通,德邦物流,顺丰速递,建设银行,平安银行,太平洋保险,中信证券,国泰航空,台积电,国家超级计算中心,华为等等等。在中国扎根,自然离不开本地生态系统的培育。作为一家平台层的软件平台提供商,Pivotal不仅和国内主流的软件开发商和系统集成商建立战略联盟关系,同时也担当起在硬件厂商和云服务提供商之间“承上启下”的角色。现在的企业需要灵活性和创新,Pivotal大数据套件同时满足了这两种需求。同时本次开源后套件提供的一系列功能与订购模式相结合,使客户既能够运用所需技术,又不会受到传统许可方式那样的限制。是一种帮助客户促进数据增长、降低风险的全新方式,使客户能够蓬勃发展、实现创新。 在实现大数据真正为企业所用的征途中,Pivotal大数据套件是一个重要的里程碑。Pivotal HD、HAWQ、Greenplum数据库和GemFire这些软件的商业版本,加上之前已经在Pivotal旗下的Redis,Rabbit MQ开源产品,我们将为整个市场贡献开发新一代数据基础架构解决方案所需要的全部组件。开放这些组件的源代码将有助于加速客户采用这些组件,提高创新速度。Pivotal大数据套件除了已提供的基于裸机、一体机以及虚拟化软件交付方式之外,现在增加对公有云、私有云及混合云的支持。此外,通过内置的Pivotal Cloud Foundry运行管理器,还可以将Pivotal大数据套件作为PaaS服务,将大数据的能力提供给基于Pivotal Cloud Foundry的应用,也就是企业的PaaS平台,所以Pivotal大数据套件2.0版本跟上一版本最大的区别就是具有与云计算平台结合的基因。 做企业级PaaS应用布道者CSDN:从以往的经验来看,互联网公司或者专门做开源的公司开源出来的产品往往会发展的比较好,而企业级软件公司开源出来的产品往往社区会非常不活跃,你们该如何处理这些问题? 刘伟光:这也是我们思考的一个问题,因为现在ODP生态环境才刚刚开始建立。不过我们在CloudFoundry社区发展上积累了很多经验。每年我们将会举办一系列的活动,这些活动和商业无关。
CSDN:HAWQ和其他SQL on Hadoop系统,例如Impala, Drill, Tajo, Presto有哪些区别?对于不同的用户该如何选型? 刘伟光:HAWQ是在Hadoop上一个大规模节点上通过SQL进行数据分析的好方案。这是Pivotal HD的架构。除了管理工具、装载器和虚拟机外,其实重头戏就是HAWQ了。 看到这个图你就知道了,所谓的HAWQ就是一个构建在HDFS上的MPP DB。相比Hive、PIG等其他SQL解释器,它有完备的DBMS管理功能,支持标准SQL语法,在性能上更加接近原有DB。 1、基于成本的优化模型。这个很重要,关系数据库的成功很大程度是靠它,基于成本的优化提供了一定的透明性,降低了用户对数据结构的理解。 2、分布式执行器。查询执行通过GPDB(Greenplum数据库)的并行执行引擎(不再使用MR),每次查询开始把数据从HDFS中导入到GPDB,执行过程中通过内存交换数据而非MR(Map Reduce)那样每次任务结束都写磁盘。 3、动态管道技术。这个就是将DBMS执行计划中的流水线移植到HAWQ中来了。这对于交互式SQL查询来说是必不可少的,可以实现秒级反馈,这些是原来Hadoop中不具备的。 4、原来GPDB中的存储是本地磁盘,现在改成HDFS,原来GPDB的单节点的RDBMS只充当执行引擎的功能,不再充当存储引擎功能。 5、GP特有的cost-based parallel query optimizer and planner(基于成本的并行查询优化与规划器)是它的一大优势,也是目前其他大多数的产品中没有的,它能够帮用户选出该SQL最高效的执行顺序。使用GPDB充当执行引擎的好处:标准SQL兼容;支持ACID事务;JDBC/ODBC支持;JOIN顺序优化和索引支持(查询优化器);支持行/列两种存储格式。 6、PXF(Pivotal Xtention Framework)使得HAWQ能够读取存储在HDFS上的任何格式的数据以及存储在其他文件系统和设备中的数据。 其实这些中最重要的就是修改了HDFS上“放置文件”的方式,也就是修改了HDFS文件系统的底层实现,给予了DBMS更大的权限来控制物理文件放置位置。这样才使得HAWQ与外部表的解决方案不一样。除了数据放置的关键技术外,我们对于hdfs文件块的存取进行了native化的处理,性能有大幅度的提升。同时要实现完整的DBMS而不只是一个查询解释器,应该还需要具备并发管理,也就是锁、多版本等一系列的东西;负载管理;权限控制;增量更新等等。这应该是HAWQ对于Hadoop多出来的东西。经过了这些改动,和其他SQL on Hadoop产品的性能和功能对比方面,HAWQ在复杂和深度查询分析上与其他方案相比优势明显。 CSDN:GemFire在互联网领域的主要应用场景有哪些? 刘伟光:GemFire是一个位于应用集群和后端数据源之间的高性能、分布式的操作数据管理基础架构。它提供了低延迟、高吞吐量的数据共享和事件分发。GemFire充分利用网络中的内存和磁盘资源,形成一个实时的数据运算。因此基于网络的,有并发行应用的行为,都能够用到GemFire。它尤其适合需要低延时,高并发的数据访问场景。并能够做广域网的数据同步来实现灾备等高级功能。在解决那些基于高并发OLTP的应用以及基于Web应用的高并发的性能瓶颈问题中,Gemfire无疑是最好的杀手锏! CSDN:本次发布的新的大数据套件增加了哪些功能? 刘伟光:Pivotal大数据套件2.0版本中包括几种最新数据服务功能: 1.Pivotal CF上的Pivotal大数据套件(Pivotal Big Data Suite on Pivotal Cloud Foundry),利用以领先的“开放云平台即服务”模式运行的应用,提供先进的数据服务功能。 2.Spring XD,高可扩展性的开源分布式框架,面向数据获取、批处理以及数据分析流水线管理。 3.Redis,业界领先的、可扩展的开源键值存储及数据结构服务器。 4.RabbitMQ,领先的可扩展、开源、可靠、面向应用的消息队列。 CSDN:自主可控是2014-15年国内的主旋律。IBM power开源以及和中国本土企业深度合作也打开了另一扇窗。目前国内企业参加ODP有多少(某家电信之外)?对国内特殊情况,ODP会有什么考虑? 刘伟光:其实对于自主可控这边我们是有一些计划的,比如我们正在和国内一些大型本土企业(不方便透漏)计划开展一些深度的合作,不仅仅是协议上的合作,更多的是技术上的开放与授权。同时这也是我们开源的另外一个含义,毕竟开源是没有国界的。目前国内参加ODP的公司还没有,,我们也在积极的寻找有实力有意愿的公司。而在Cloud Foundry开源基金会当中,今年会有一家国内巨头正式加入。。 小结开源是一个潮流,尽管仍有不足和质疑,但是开源对整个IT行业的带动,对信息技术的推动作用,是无需置疑的。未来云与大数据必将结合得越来越紧密,单独的大数据环境已经逐渐显现出其不足之处,如缺乏足够的弹性和支撑的广度,无法支撑快速的迭代开发等问题。期待ODP的发展可以帮助越来越多的企业得到一栈式的数据服务能力。 |