Spark基础学习-RDD

12月 23 2022 技术研究

RDD介绍

Spark 的核心是建立在统一的抽象弹性分布式数据集（Resiliennt Distributed Datasets，RDD）之上的，这使得 Spark 的各个组件可以无缝地进行集成，能够在同一个应用程序中完成大数据处理。RDD 是 Spark 提供的最重要的抽象概念，它是一种有容错机制的特殊数据集合，可以分布在集群的结点上，以函数式操作集合的方式进行各种并行操作。

RDD的4大属性

partitions: 数据分片
partitioner: 分片切割原则
dependencies: RDD依赖
compute: 转换函数

#大数据

Spark基础学习-RDD

RDD介绍

RDD的4大属性

Your browser is out-of-date!