大数据面试知识点分析(一)

标签: 面试

转自:https://blog.csdn.net/qq_26803795/article/details/79109240

为了保证效率和质量,每篇文章发布6个知识点,由简单及难,我们从HDFS开始:


1如何杀死一个job

  1. hadoop job –list
  2. ./hadoop job -kill job_201212111628_11166

2删除hdfs 上的/tmp/xxx目录

  1. hadoop dfs -rm /user/cl/temp/a.txt
  2. hadoop dfs -rmr /user/cl/temp

3加入一个新的存储节点和删除一个计算节点,需要刷新集群状态命令,怎么操作

HDFS增加节点

方式1:静态添加datanode,停止namenode方式

1.停止namenode 
2.修改slaves文件,并更新到各个节点
3.启动namenode 
4.执行Hadoop balance命令。(此项为balance集群使用,如果只是添加节点,则此步骤不需要)

方式2:动态添加datanode,不停namenode方式

1.修改slaves文件,添加需要增加的节点host或者ip,并将其更新到各个节点 
2.在datanode中启动执行启动datanode命令。命令:sh hadoop-daemon.sh start datanode 
3.可以通过web界面查看节点添加情况。或使用命令:sh hadoop dfsadmin -report 
4.执行hadoop balance命令。(此项为balance集群使用,如果只是添加节点,则此步骤不需要)

针对第4点,start-balancer.sh可以执行-threshold参数。 
-threshold参数是指定平衡的阈值。 
-threshold的默认是10,即每个datanode节点的实际hdfs存储使用量/集群hdfs存储量

举例: 
datanode hdfs使用量1.2G; 
集群总hdfs存储量10T即10G; 
则t值为1.2/10 = 0.12; 
当执行balance的-t参数小于0.12时,集群进行balance; 
命令为:start-balancer.sh -threshold 0.1

注: 
1. balance命令可以在namenode或者datanode上启动; 
可以随时停止balance命令。 
balance的默认带宽是1M/s。 
2. slave文件是用于重启时使用。集群的start和stop需要读取slave文件。 
启用datanode时只要在hdfs-site中配置了namenode位置,就可以将信息push给namenode。 
查看namenode的http管理界面,可查看节点添加情况。 

**********************************华*丽*的*分*割*线***************************************

HDFS删除节点

方式1:通过dead方式(namenode上):

1. sh hadoop dfsadmin  -refreshServiceAcl

说明:dead方式并未修改slave文件和hdfs-site文件。 
所以在集群重启时,该节点不会被添加到namenode的管理中。 
此次在namenode上进行,其他节点可另行实验。,该命令会将该节点状态置为dead。 
-

方式2:通过decommission方式:

a) 修改hdfs-site,添加exclude字段中的排除的节点。 
b) 执行sh hadoop dfsadmin -refreshNodes,强制刷新。 
c) 查看节点状态,该节点的状态为decommission。

说明:decommission方式修改了hdfs-site文件,未修改slave文件。 
所以集群重启时,该节点虽然会被启动为datanode,但是由于添加了exclude,所以namenode会将该节点置为decommission。 
此时namenode不会与该节点进行hdfs相关通信。也即exclude起到了一个防火墙的作用。

注: 
1. 如果在某个节点单独停止datanode,那么在namenode的统计中仍会出现该节点的datanode信息。 
此时可通过dead或者decommission(退役)方式下线机器。


4简述一下hdfs的数据压缩算法,工作中用的是那种算法,为什么?

1.在HDFS之上将数据压缩好后,再存储到HDFS
2.在HDFS内部支持数据压缩,这里又可以分为几种方法:
  2.1 压缩工作在DataNode上完成,这里又分两种方法:
    2.1.1 数据接收完后,再压缩
       这个方法对HDFS的改动最小,但效果最低,只需要在block文件close后,调用压缩工具,将block文件压缩一下,然后再打开block文件时解压一下即可,几行代码就可以搞定

    2.1.2 边接收数据边压缩,使用第三方提供的压缩库
        效率和复杂度折中方法,Hook住系统的write和read操作,在数据写入磁盘之前,先压缩一下,但write和read对外的接口行为不变,比如:原始大小为100KB的数据,压缩后大小为10KB,当写入100KB后,仍对调用者返回100KB,而不是10KB
  2.2 压缩工作交给DFSClient做,DataNode只接收和存储
        这个方法效果最高,压缩分散地推给了HDFS客户端,但DataNode需要知道什么时候一个block块接收完成了。
推荐最终实现采用2.2这个方法,该方法需要修改的HDFS代码量也不大,但效果最高。

5)Datanode在什么情况下不会备份?

hadoop保存的三个副本如果不算备份的话,那就是在正常运行的情况下不会备份,也是就是在设置副本为1的时候不会备份,说白了就是单台机器!

6) 三个 datanode,当有一个datanode出现错误会怎样?

第一不会给储存带来影响,因为有其他的副本保存着,不过建议尽快修复,第二会影响运算的效率,机器少了,reduce在保存数据时选择就少了,一个数据的块就大了所以就会慢。

Datanode以数据块作为容错单位 通常一个数据块会备份到三个datanode上,如果一个datanode出错,则回去其他备份数据块的datanode上读取,并且会把这个datanode上的数据块再复制一份 以达到备份的效果!



版权声明:本文为dapeng1995原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/dapeng1995/article/details/82191517

智能推荐

【机器学习基础】线性回归

                                                        &nbs...

08-Vue实现书籍购物车案例

书籍购物车案例 index.html main.js style.css 1.内容讲解 写一个table和thead,tbody中每一个tr都用来遍历data变量中的books列表。 结果如下: 在thead中加上购买数量和操作,并在对应的tbody中加入对应的按钮。结果如下: 为每个+和-按钮添加事件,将index作为参数传入,并判断当数量为1时,按钮-不可点击。 结果如下: 为每个移除按钮添加...

堆排序

堆排序就是利用堆进行排序的方法,基本思想是,将代排序列构造成一个大根堆,此时整个序列的最大值就是堆顶的根节点。将它与堆数组的末尾元素交换,此时末尾元素就是最大值,移除末尾元素,然后将剩余n-1个元素重新构造成一个大根堆,堆顶元素为次大元素,再次与末尾元素交换,再移除,如此反复进行,便得到一个有序序列。 (大根堆为每一个父节点都大于两个子节点的堆) 上面思想的实现还要解决两个问题: 1.如何由一个无...

基础知识(变量类型和计算)

一、值类型 常见的有:number、string、Boolean、undefined、Symbol 二、引用类型 常用的有:object、Array、null(指针指向为空)、function 两者的区别: 值类型暂用空间小,所以存放在栈中,赋值时互不干扰,所以b还是100 引用类型暂用空间大,所以存放在堆中,赋值的时候b是引用了和a一样的内存地址,所以a改变了b也跟着改变,b和a相等 如图: 值...

猜你喜欢

Codeforces 1342 C. Yet Another Counting Problem(找规律)

题意: [l,r][l,r][l,r] 范围内多少个数满足 (x%b)%a!=(x%a)%b(x \% b) \% a != (x \% a) \% b(x%b)%a!=(x%a)%b。 一般这种题没什么思路就打表找一下规律。 7 8 9 10 11 12 13 14 15 16 17 18 19 20 28 29 30 31 32 33 34 35 36 37 38 39 40 41 49 50...

[笔记]飞浆PaddlePaddle-百度架构师手把手带你零基础实践深度学习-21日学习打卡(Day 3)

[笔记]飞浆PaddlePaddle-百度架构师手把手带你零基础实践深度学习-21日学习打卡(Day 3) (Credit: https://gitee.com/paddlepaddle/Paddle/raw/develop/doc/imgs/logo.png) MNIST数据集 MNIST数据集可以认为是学习机器学习的“hello world”。最早出现在1998年LeC...

哈希数据结构和代码实现

主要结构体: 实现插入、删除、查找、扩容、冲突解决等接口,用于理解哈希这种数据结构 完整代码参见github: https://github.com/jinxiang1224/cpp/tree/master/DataStruct_Algorithm/hash...

解决Ubuntu中解压zip文件(提取到此处)中文乱码问题

在Ubuntu系统下,解压zip文件时,使用右键--提取到此处,得到的文件内部文件名中文出现乱码。 导致此问题出现的原因一般为未下载相应的字体。 解决方案: 在终端中使用unar命令。 需要注意的是系统需要包含unar命令,如果没有,采用如下的方式解决: 实例效果展示: 直接提取到此处: 使用 unar filename.zip得到的文件...

centos7安装mysql8.0.20单机版详细教程

mysql8.0之后与5.7存在着很大的差异,这些差异不仅仅表现在功能和性能上,还表现在基础操作和设置上。这给一些熟悉mysql5.7的小伙伴带来了很多困扰,下面我们就来详细介绍下8.0的安装和配置过程。 mysql在linux上的多种安装方式: 1.yum安装 由于centos默认的yum源中没有mysql,所以我们要使用yum安装mysql就必须自己指定mysql的yum源。在官网下载mysq...