Spark RDDs

弹性分布式数据集 (RDDs)

Spark 核心的概念是 Resilient Distributed Dataset (RDD):一个可并行操作的有容错机制的数据集合。有 2 种方式创建 RDDs:第一种是在你的驱动程序中并行化一个已经存在的集合;另外一种是引用一个外部存储系统的数据集,例如共享的文件系统,HDFS,HBase或其他 Hadoop 数据格式的数据源。

作者:冒牌SEO,如若转载,请注明出处:https://www.web176.com/spark/11946.html

(0)
打赏 支付宝 支付宝 微信 微信
冒牌SEO冒牌SEO
上一篇 2023年3月6日
下一篇 2023年3月6日

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注