设为首页收藏本站

LUPA开源社区

 找回密码
 注册
文章 帖子 博客
LUPA开源社区 首页 业界资讯 软件追踪 查看内容

Spark 2.4发布,大规模数据处理统一分析引擎

2018-11-12 00:25| 发布者: joejoe0332| 查看: 280| 评论: 0|原作者: oschina|来自: oschina

摘要: Spark 2.4 发布了,Apache Spark 是用于大规模数据处理的统一分析引擎,它是一种与Hadoop相似的开源集群计算环境,Spark 启用了内存分布数据集,除了能够提供交互式查询外,还可以优化迭代工作负载。尽管创建 Spark ...

Spark 2.4 发布了,Apache Spark 是用于大规模数据处理的统一分析引擎,它是一种与 Hadoop 相似的开源集群计算环境,Spark 启用了内存分布数据集,除了能够提供交互式查询外,还可以优化迭代工作负载。尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoo 文件系统中并行运行。

此版本继续关注可用性、稳定性和性能优化,同时解决了大约 1100 个 tickets。主要更新如下:

  • 增加了屏障执行模式,以更好地与深度学习框架集成

  • 引入 30 多个内置和更高阶函数,更轻松地处理复杂数据类型

  • 改进 K8s 集成

  • 实验性 Scala 2.12 支持

此外还有内置 Avro 数据源、图像数据源,灵活的流式接收器,在传输过程中消除 2GB 块大小限制,Pandas UDF 改进等。

详情查看发布公告

下载地址:https://spark.apache.org/downloads.html


酷毙

雷人

鲜花

鸡蛋

漂亮
  • 快毕业了,没工作经验,
    找份工作好难啊?
    赶紧去人才芯片公司磨练吧!!

最新评论

关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号   

返回顶部