Spark SQL

  • Spark SQL

    Spark SQL Spark SQL允许Spark执行用SQL, HiveQL或者Scala表示的关系查询。这个模块的核心是一个新类型的RDD-SchemaRDD。SchemaR…

    Spark SQL 2023年3月6日
  • Spark SQL开始

    Spark SQL开始 Spark中所有相关功能的入口点是SQLContext类或者它的子类,创建一个SQLContext的所有需要仅仅是一个SparkContext。 val s…

  • Spark SQL性能调优

    Spark SQL性能调优 对于某些工作负载,可以在通过在内存中缓存数据或者打开一些实验选项来提高性能。 在内存中缓存数据 Spark SQL可以通过调用sqlContext.ca…

    Spark SQL 2023年3月6日
  • Spark SQL其他接口

    Spark SQL其它接口 Spark SQL也支持直接运行SQL查询的接口,不用写任何代码。 运行Thrift JDBC/ODBC服务器 这里实现的Thrift JDBC/ODB…

    Spark SQL 2023年3月6日
  • 编写语言集成(Language-Integrated)的相关查询

    编写语言集成(Language-Integrated)的相关查询 语言集成的相关查询是实验性的,现在暂时只支持scala。 Spark SQL也支持用领域特定语言编写查询。 // …

    Spark SQL 2023年3月6日
  • Spark SQL数据类型

    Spark SQL数据类型 数字类型 ByteType:代表一个字节的整数。范围是-128到127 ShortType:代表两个字节的整数。范围是-32768到32767 Inte…

    Spark SQL 2023年3月6日
  • Spark SQL数据源

    数据源 Spark SQL支持通过SchemaRDD接口操作各种数据源。一个SchemaRDD能够作为一个一般的RDD被操作,也可以被注册为一个临时的表。注册一个SchemaRDD…

  • Spark SQL RDDs

    RDDs Spark支持两种方法将存在的RDDs转换为SchemaRDDs。第一种方法使用反射来推断包含特定对象类型的RDD的模式(schema)。在你写spark程序的同时,当你…

    Spark SQL 2023年3月6日
  • Spark SQL parquet文件

    Parquet文件 Parquet是一种柱状(columnar)格式,可以被许多其它的数据处理系统支持。Spark SQL提供支持读和写Parquet文件的功能,这些文件可以自动地…

    Spark SQL 2023年3月6日
  • Spark SQL JSON数据集

    Spark SQL JSON数据集 Spark SQL能够自动推断JSON数据集的模式,加载它为一个SchemaRDD。这种转换可以通过下面两种方法来实现 jsonFil…

    Spark SQL 2023年3月6日
  • Spark SQL Hive表

    Hive表 Spark SQL也支持从Apache Hive中读出和写入数据。然而,Hive有大量的依赖,所以它不包含在Spark集合中。可以通过-Phive和-Phive-thr…

    Spark SQL 2023年3月6日