• Hadoop 关于

    主要记录了Hadoop各个组件的基本原理,处理过程和关键的知识点等,包括HDFS、YARN、MapReduce等。 铺垫 人产生数据的速度越来越快,机器则更加快,数据的增长速度通常…

    Hadoop 教程 2023年6月2日
  • Hadoop 简介

    Hadoop可运行于一般的商用服务器上,具有高容错、高可靠性、高扩展性等特点 特别适合写一次,读多次的场景 适合 大规模数据 流式数据(写一次,读多次) 商用硬件(一般硬件) 不适…

    Hadoop 教程 2023年6月2日
  • Hadoop HDFS

    简介 Hadoop Distributed File System,分布式文件系统 架构 Block数据块; 基本存储单位,一般大小为64M(配置大的块主要是因为:1)减少搜寻时间…

  • Hadoop 写文件

    1.客户端将文件写入本地磁盘的 HDFS Client 文件中 2.当临时文件大小达到一个 block 大小时,HDFS client 通知 NameNode,申请写入文件 3.N…

    Hadoop 教程 2023年6月2日
  • Hadoop 读文件

    客户端向NameNode发送读取请求 NameNode返回文件的所有block和这些block所在的DataNodes(包括复制节点) 客户端直接从DataNode中读取数据,如果…

    Hadoop 教程 2023年6月2日
  • Hadoop 可靠性

    HDFS – 可靠性 HDFS 的可靠性主要有以下几点: 冗余副本策略 机架策略 心跳机制 安全模式 效验和 回收站 元数据保护 快照机制   1.冗余副本策…

    Hadoop 教程 2023年6月2日
  • Hadoop 命令工具

    HDFS – 命令工具 fsck: 检查文件的完整性 start-balancer.sh: 重新平衡HDFS hdfs dfs -copyFromLocal 从本地磁盘…

    Hadoop 教程 2023年6月2日
  • Hadoop YARN

    旧的MapReduce架构 JobTracker: 负责资源管理,跟踪资源消耗和可用性,作业生命周期管理(调度作业任务,跟踪进度,为任务提供容错) TaskTracker: 加载或…

  • Hadoop ResourceManager

    负责全局的资源管理和任务调度,把整个集群当成计算资源池,只关注分配,不管应用,且不负责容错 资源管理 以前资源是每个节点分成一个个的Map slot和Reduce slot,现在是…

    Hadoop 教程 2023年6月2日
  • Hadoop NodeManager

    Node节点下的Container管理 启动时向ResourceManager注册并定时发送心跳消息,等待ResourceManager的指令 监控Container的运行,维护C…

    Hadoop 教程 2023年6月2日
  • Hadoop ApplicationMaster

    单个作业的资源管理和任务监控 具体功能描述: 计算应用的资源需求,资源可以是静态或动态计算的,静态的一般是Client申请时就指定了,动态则需要ApplicationMaster根…

    Hadoop 教程 2023年6月2日
  • Hadoop Container

    基本的资源单位(CPU、内存等) Container可以加载任意程序,而且不限于Java 一个Node可以包含多个Container,也可以是一个大的Container Appli…

    Hadoop 教程 2023年6月2日
  • Hadoop Failover

    失败类型 程序问题 进程崩溃 硬件问题 失败处理 任务失败 运行时异常或者JVM退出都会报告给ApplicationMaster 通过心跳来检查挂住的任务(timeout),会检查…

  • Hadoop MapReduce

    简介 一种分布式的计算方式指定一个Map(映#x5C04;)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相…

    Hadoop 教程 2023年6月2日
  • Hadoop 读取数据

    MapReduce – 读取数据 通过InputFormat决定读取的数据的类型,然后拆分成一个个InputSplit,每个InputSplit对应一个Map处理,Re…

    Hadoop 教程 2023年6月2日
  • Hadoop Mapper

    主要是读取InputSplit的每一个Key,Value对并进行处理 public class Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT…

    Hadoop 教程 2023年6月2日
  • Hadoop Shuffle

    对Map的结果进行排序并传输到Reduce进行处理 Map的结果并不是直接存放到硬盘,而是利用缓存做一些预排序处理 Map会调用Combiner,压缩,按key进行分区、排序等,尽…

    Hadoop 教程 2023年6月2日
  • Hadoop 编程

    处理 select:直接分析输入数据,取出需要的字段数据即可 where: 也是对输入数据处理的过程中进行处理,判断是否需要该数据 aggregation:min, max, su…

  • Hadoop IO

    输入文件从HDFS进行读取. 输出文件会存入本地磁盘. Reducer和Mapper间的网络I/O,从Mapper节点得到Reducer的检索文件. 使用Reducer实例从本地磁…

    Hadoop 教程 2023年6月2日
  • Hadoop 测试

    Hadoop 测试 MRUnit单元测试Mapper和Reducer类在内存上独立运行, PipelineMapReduceDriver单线程运行. LocalJobRunner单…

    Hadoop 教程 2023年6月2日