#大数据

雪地

RDD介绍

Spark 的核心是建立在统一的抽象弹性分布式数据集(Resiliennt Distributed Datasets,RDD)之上的,这使得 Spark 的各个组件可以无缝地进行集成,能够在同一个应用程序中完成大数据处理。RDD 是 Spark 提供的最重要的抽象概念,它是一种有容错机制的特殊数据集合,可以分布在集群的结点上,以函数式操作集合的方式进行各种并行操作。

RDD的4大属性

  • partitions: 数据分片
  • partitioner: 分片切割原则
  • dependencies: RDD依赖
  • compute: 转换函数

阅读更多

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×