设为首页收藏本站

LUPA开源社区

 找回密码
 注册
文章 帖子 博客
LUPA开源社区 首页 IT综合资讯 查看内容

腾讯大数据平台纵览

2014-8-22 11:23| 发布者: joejoe0332| 查看: 3054| 评论: 0|原作者: 刘煜宏|来自: InfoQ

摘要: 腾讯业务产品线众多,拥有海量的活跃用户,每天线上产生的数据超乎想象,必然会成为数据大户。特别是随着传统业务增长放缓,以及移动互联网时代的 精细化运营,对于大数据分析和挖掘的重视程度高于以往任何时候,如 ...


  另外,为了减少大量数据进行跨城网络传输,TDBank在数据传输的过程中进行数据压缩,并提供公网/内网自动识别模式,极大的降低了专线带宽成本。为了保障数据的完整性,TDBank提供定制化的失败重发和滤重机制,保障在复杂网络情况下数据的高可用。TDBank基于流式的数据处理过程,保障了数据的实时性,为TRC实时计算平台提供实时的数据支持。目前,TDBank实时采集的数据超过150+TB/日(约5000+亿条/日),这个数字一直在持续增长中,预计年底将超过2万亿条/日。


  TRC(Tencent Real-time Computing):腾讯实时计算平台。作为海量数据处理的另一利器,专门为对时间延敏感的业务提供海量数据实时处理服务。通过海量数据的实时采集、实时计算,实时感知外界变化,从事件发生、到感知变化、到输出计算结果,整个过程中秒级完成。



  TRC是基于开源的Storm深度定制的流式处理引擎,用Java重写了Storm的核心代码。为了解决了资源利用率和集群规模的问题,重构了底层调度模块,实现了任务级别的权限管理、资源分配、资源隔离,通过和Gaia这样的资源管理框架相结合,做到了根据线上业务实际利用资源的状况,动态扩容&缩容,单集群轻松超过1000台规模。为了提高平台的易用性和可运维性,提供了类SQL和Pig Latin这样的过程化语言扩展,方便用户提交业务,提升接入效率,同时提供系统级的指标度量,支持用户代码对其扩展,实时监控整个系统运营环节。另外将TRC的功能服务化,通过REST API提供PaaS级别的开放,用户无需了解底层实现细节就能方便的申请权限,资源和提交任务。


  目前,TRC日计算次数超过2万亿次,在腾讯已经有很多业务正在使用TRC提供的实时数据处理服务。比如,对于广点通广告推荐而言,用户在互联网上的行为能实时的影响其广告推送内容,在用户下一次刷新页面时,就提供给用户精准的广告;对于在线视频,新闻而言,用户的每一次收藏、点击、浏览行为,都能被快速的归入他的个人模型中,立刻修正视频和新闻推荐。


  Gaia:统一资源调度平台。Gaia,希腊神话中的大地之神,是众神之母,取名寓意各种业务类型和计算框架都能植根于“大地”之上。它能够让应用开发者像使用一台超级计算机一样使用整个集群,极大地简化了开发者的资源管理逻辑。Gaia提供高并发任务调度和资源管理,实现集群资源共享,具有很高的可伸缩性和可靠性,它不仅支持MR等离线业务,还可以支持实时计算,甚至在线service业务。



  为了支撑单集群8800台甚至更大规模,Gaia基于开源社区Yarn之上自研Sfair (Scalable fair scheduler)调度器,优化调度逻辑,提供更好的可扩展性,并进一步增强调度的公平性,提升可定制化,将调度吞吐提升10倍以上。为了满足上层多样化的计算框架稳定运行,Gaia除了CPU、Mem的资源管理之外,新增了Network IO,Disk space,Disk IO等资源管理维度,提高了隔离性,为业务提供了更好的资源保证和隔离。同时,Gaia开发了自己的内核版本,调整和优化CPU、Mem资源管理策略,在兼容线程监控的前提下,利用cgroups,实现了hardlimit+softlimit结合的方式,充分利用整机资源,将container oom kill机率大幅降低。另外,丰富的API也为业务提供了更便捷的容灾、扩容、缩容、升级等方式。


  基于以上几大基础平台的组合联动,可以打造出了很多的数据产品及服务,如上面提到的精准推荐就是其中之一,另外还有诸如实时多维分析、秒级监控、腾讯分析、信鸽等等。除了一些相对成熟的平台之外,我们还在进行不断的尝试,针对新的需求进行更合理的技术探索,如更快速的交互式分析、针对复杂关系链的图式计算。此外,腾讯大数据平台的各种能力及服务,还将通过TOD(Tencent Open Data)产品开放给外部第三方开发者。


作者简介

  刘煜宏(ehomeliu):拥有10年以上的电信行业及互联网行业的从业经验,现就职于腾讯数据平台部,是腾讯实时数据接入平台(TDBank)及实时计算平台(TRC)的负责人,在大数据接入、计算及分析等方面有丰富经验。


感谢包研对本文的审校。


酷毙

雷人

鲜花

鸡蛋

漂亮
  • 快毕业了,没工作经验,
    找份工作好难啊?
    赶紧去人才芯片公司磨练吧!!

最新评论

关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号   

返回顶部