• Spark Streaming离散流

    离散流(DStreams) 离散流或者DStreams是Spark Streaming提供的基本的抽象,它代表一个连续的数据流。它要么是从源中获取的输入流,要么是输入流通过转换算子…

  • 输入DStreams

    输入DStreams和receivers 输入DStreams表示从数据源获取输入数据流的DStreams。在快速例子中,lines表示输入DStream,它代表从netcat服务…

    Spark Streaming 2023年3月6日
  • DStream中的转换

    DStream中的转换(transformation) 和RDD类似,transformation允许从输入DStream来的数据被修改。DStreams支持很多在RDD中可用的t…

    Spark Streaming 2023年3月6日
  • DStream的输出操作

    DStreams上的输出操作 输出操作允许DStream的操作推到如数据库、文件系统等外部系统中。因为输出操作实际上是允许外部系统消费转换后的数据,它们触发的实际操作是DStrea…

    Spark Streaming 2023年3月6日
  • DStreams缓存或持久化

    缓存或持久化 和RDD相似,DStreams也允许开发者持久化流数据到内存中。在DStream上使用persist()方法可以自动地持久化DStream中的RDD到内存中。如果DS…

  • Spark Streaming Checkpointing

    Spark Streaming Checkpointing 一个流应用程序必须全天候运行,所有必须能够解决应用程序逻辑无关的故障(如系统错误,JVM崩溃等)。为了使这成为…

  • Spark Streaming部署应用程序

    Spark Streaming部署应用程序 Requirements 运行一个Spark Streaming应用程序,有下面一些步骤 有管理器的集群-这是任何Spark应用程序都需…

    Spark Streaming 2023年3月6日
  • Spark Streaming监控应用程序

    Spark Streaming监控应用程序 除了Spark的监控功能,Spark Streaming增加了一些专有的功能。应用StreamingContext的时候,Spark w…

    Spark Streaming 2023年3月6日
  • Spark Streaming性能调优

    Spark Streaming性能调优 集群中的Spark Streaming应用程序获得最好的性能需要一些调整。这章将介绍几个参数和配置,提高Spark Streaming应用程…

    Spark Streaming 2023年3月6日
  • Spark Streaming减少批数据的执行时间

    Spark Streaming减少批数据的执行时间 在Spark中有几个优化可以减少批处理的时间。这些可以在优化指南中作了讨论。这节重点讨论几个重要的。 数据接收的并行水平 通过网…

  • Spark Streaming设置正确的批容量

    设置正确的批容量 为了Spark Streaming应用程序能够在集群中稳定运行,系统应该能够以足够的速度处理接收的数据(即处理速度应该大于或等于接收数据的速度)。这可以通过流的网…

  • Spark Streaming内存调优

    内存调优 调整内存的使用以及Spark应用程序的垃圾回收行为已经在Spark优化指南中详细介绍。在这一节,我们重点介绍几个强烈推荐的自定义选项,它们可以减少Spark Stream…

    Spark Streaming 2023年3月6日
  • Spark Streaming容错语义

    Spark Streaming容错语义 这一节,我们将讨论在节点错误事件时Spark Streaming的行为。为了理解这些,让我们先记住一些Spark RDD的基本容错语义。 一…

    Spark Streaming 2023年3月6日
  • Spark SQL

    Spark SQL Spark SQL允许Spark执行用SQL, HiveQL或者Scala表示的关系查询。这个模块的核心是一个新类型的RDD-SchemaRDD。SchemaR…

    Spark SQL 2023年3月6日
  • Spark SQL开始

    Spark SQL开始 Spark中所有相关功能的入口点是SQLContext类或者它的子类,创建一个SQLContext的所有需要仅仅是一个SparkContext。 val s…

  • Spark SQL性能调优

    Spark SQL性能调优 对于某些工作负载,可以在通过在内存中缓存数据或者打开一些实验选项来提高性能。 在内存中缓存数据 Spark SQL可以通过调用sqlContext.ca…

    Spark SQL 2023年3月6日
  • Spark SQL其他接口

    Spark SQL其它接口 Spark SQL也支持直接运行SQL查询的接口,不用写任何代码。 运行Thrift JDBC/ODBC服务器 这里实现的Thrift JDBC/ODB…

    Spark SQL 2023年3月6日
  • 编写语言集成(Language-Integrated)的相关查询

    编写语言集成(Language-Integrated)的相关查询 语言集成的相关查询是实验性的,现在暂时只支持scala。 Spark SQL也支持用领域特定语言编写查询。 // …

    Spark SQL 2023年3月6日
  • Spark SQL数据类型

    Spark SQL数据类型 数字类型 ByteType:代表一个字节的整数。范围是-128到127 ShortType:代表两个字节的整数。范围是-32768到32767 Inte…

    Spark SQL 2023年3月6日
  • Spark SQL数据源

    数据源 Spark SQL支持通过SchemaRDD接口操作各种数据源。一个SchemaRDD能够作为一个一般的RDD被操作,也可以被注册为一个临时的表。注册一个SchemaRDD…