Spark 2.4 发布了,Apache Spark 是用于大规模数据处理的统一分析引擎,它是一种与 Hadoop 相似的开源集群计算环境,Spark
启用了内存分布数据集,除了能够提供交互式查询外,还可以优化迭代工作负载。尽管创建 Spark
是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoo 文件系统中并行运行。 此版本继续关注可用性、稳定性和性能优化,同时解决了大约 1100 个 tickets。主要更新如下:
此外还有内置 Avro 数据源、图像数据源,灵活的流式接收器,在传输过程中消除 2GB 块大小限制,Pandas UDF 改进等。 详情查看发布公告。 下载地址:https://spark.apache.org/downloads.html |