刚刚宣布放宽计算及内存限制,Aster提供R语言分析能力之后,Teradata迅速出手,宣布由Teradata实验室收购了Revelytix和Hadapt。前者主要致力于Hadoop上的数据管理,而Hadapt则是一家专注SQL-on-Hadoop的公司。显然,Teradata构建统一数据架构方面正在加速奔跑。 构建统一数据架构事实上,结构化数据和非结构化数据通过传统的SQL分析和新的分析算法(时间序列、路径、图和文字)正在产生新的价值。为了最高效率、最优存储、分析和应用的成本,大数据的技术链条正在分层。在Teradata天睿公司大中华区大数据事业部总监孔宇华的分析中,统一数据架构可以分为三层:Teradata整合数据仓库、以Aster为主的探索分析平台,以及以Hadoop为主的数据平台 。 Teradata天睿公司大中华区大数据事业部总监 孔宇华 Hadoop自然是为了实现快速数据加载和获取,数据过滤和预处理以及在线归档;Aster则是数据发现、快速假设校验和试错、模式监测,实现路径、图、时间序列分析;Teradata数据仓库是实现战略智能、预测分析和操作型智能。 这也是业内比较认可的技术分层模式。通过三个平台的整合,来满足更多行业深入的数据分析需求。 以医疗行业为例,要实现对病人住院情况进行分析,需要在数据平台上复查住院治疗数据,并通过运用Aster中的时间序列路径函数,聚集函数以及Sigma值函数,识别一个病人从住院到出院的所有治疗程序以及为其提供医疗服务的医生,进而在Teradata中生成时间、地域、交叉、医疗效果等可视化分析图谱。而通过对美国一家医院肺炎患者的相关分析并指导业务改进,“降低了10%的住院时间,节省了5000万美元”。孔宇华表示。 同样可分享的案例还有运营商、银行、零售、电商、高科技制造等。而回到技术上,整合数据仓库,无论是在共享相关性、一致性和整合数据,还是快速部署新应用,形成业务视图等方面都较为成熟。与之相对应的是,最有技术挑战的是数据平台和探索平台。 在Hadoop基础上发挥Aster优势这两者在技术发展上有重叠,也各有侧重。对Teradata而言,就是如何有效利用Hadoop,并在其上通过Aster实现挖掘和分析。 在孔宇华看来,Aster和Hadoop同样是MPP架构,但在存储,运算引擎以及界面方面都有较多的差异,这决定两者所擅长任务的差别(如图)。 Aster和Hadoop的区别(点击看大图) |