Hadoop课程笔记

news/2024/7/7 20:31:12

Hadoop笔记

  • nn和sn的区别
    • nn有inprogress,sn没有,隔一段时间sn会拉取nn上的fsi和edits进行合并然后返回给nn
  • nn和dn
    •  

85d0d271ccb644a89ba1287e67d51951.jpeg

  • 序列化和反序列化
    • 当需要将内存中对象从一个服务器传输到另一个服务器的时候,将内存中的对象写进磁盘(序列化)并传输到目标服务器磁盘后再写入内存(反序列化)的过程
  • mr任务的代码步骤
    • 新建job对象,传入conf
    • job联系三个类:mapper,reducer,driver(套路化的设置,如导包,配参数,使用的集群等)
    • 指定mapper类
    • 指定reducer类
    • driver
      • 指定mapper阶段结构的输出类型
      • 指定最终结果的输出类型
      • 指定输入输出路径,输出路径不能存在结果文件
    • 执行
    • mapper阶段会遍历文件,用每一行的偏移量作为key,内容作为value传入,输出key为内容和,value为1的中间结果,然后根据reduce阶段给每个key分配的reduce节点上进行聚合操作计算所有结果再汇总所有节点的结果
    • 序列化和反序列化一定要按队列来
    • 并行度由maptask的切片数决定
      • 切片大小与block块大小一致,效率最佳,避免跨节点执行任务
      • 切片是按照单个文件来的,与数据集无关
  • mr数据倾斜
    • 空值过多,删除
      • 自定义分区,在null后面拼接随机数打散二次聚合
    • 增加reduce个数
    • 提前combiner做聚合在map端,mapjoin
  • 小文件
    • archive,存储方向
    • 切片用combinetextinputformat将多个小文件放在一起当作单个文件进行,计算方向
    • jvm重用,uber模式,同一个job得多个task共用jvm,减少初始化和关闭的操作

 


http://lihuaxi.xjx100.cn/news/1057592.html

相关文章

数组排序去重

题目描述 输入10个整数组成的序列,要求对其进行升序排序,并去掉重复元素。 输入输出格式 输入格式 输入10个整数。 输出格式 多行输出,每行一个元素。 输入输出样例1 输入 2 2 3 3 1 1 5 5 5 5 输出 1 2 3 5 输入输出样例2 输入 110 1…

【Linux 命令】chroot

文章目录 一、背景二、语法三、案例3.1 命令3.2 系统调用3.3 查找服务是否存在于 chrooted 监禁内 四、注意事项 chroot 用来在指定根目录运行命令(即指定 / 的位置),不可操作指定目录之外的地方。其是一种非常简单的资源隔离化操作&#xff…

OpenCv基础之绘图及几何变换实例

文章目录 OpenCv基础之绘图及几何变换实例创建背景图线段绘制矩形绘制圆绘制椭圆绘制绘制多边形添加文字 几何变换图像平移图像缩放图像旋转仿射变换透视变化 OpenCv基础之绘图及几何变换实例 绘图在图像处理中,主要是在处理完图像后,将图像中的目标进行…

【前端Vue】Vue学习笔记之入门须知

Vue学习笔记 一、如果是从零开发项目,那么需要进行的步骤如下:二、如果是开发一个已有的Vue项目,那么需要进行的步骤如下: 作为一个后端开发者,最近需要开始做前端开发也需要快速上手vue框架 那么学习的步骤是什么呢? 一、如果是从…

python 打包新方案

首先是打包一个最简单的python 代码使用 pyinstaller import os #直接读取文件获得python.exe 路径 # 待执行python路径 with open("path_run.txt","r",encoding"utf-8") as f:python_exe,pyf.readlines() os.system("{} {}".format(p…

基于蚂蚁优化算法的BP神经网络在负荷预测中的应用研究(Matlab完整代码实现)

💥💥💥💞💞💞欢迎来到本博客❤️❤️❤️💥💥💥 目录 1 ACO-BP算法 2 ACO-BP算法基本思路 3 具体步骤 4 运行结果 ​ 5 参考文献 6 Matlab代码实现 1 ACO-BP算法 传统的…

python基础练习 双if 条件判断语句 适合小白

学了有半年时间python了,我只能只能实现一些简单功能为此我感到惭愧 ,为此我是在抬不起头所以我希望大家不要灰心,我将在后续的一月中为大家持续更新python练习题和进阶知识,高阶功能 希望大家多多支持 功能一: 提示…

2.2.1服务器百万并发实现

接上节课,上节课中,我们使用了epoll实现了同时监听多个文件描述符,是对IO的管理,也提到了reactor是对事件的管理,那具体来说是怎样的呢?reactor是事件驱动模型,也就是EPOLLIN/EPOLLOUT&#xff…