一、Hadoop概念及架构

1、是否看过Hadoop源码

2、正常工作的hadoop集群中hadoop都分别需要启动哪些进程,他们的作用分别是什么

3、hadoop和spark中的文件缓存方式

4、hadoop各组件之间通信Rpc协议

5、Hadoop的读数据流程

6、对Hadoop生态圈中的哪些技术比较了解

其他问法:你了解的hadoop生态圈的框架,及其大概在怎样的一个位置

7、列出几个配置文件优化hadoop,怎么做数据平衡

8、关于hadoop相关的调优

9、Hadoop启动的时候都有哪些进程,进程名称

10、Hadoop是什么

11、hadoop的块大小,从哪个版本开始是128M

12、Hadoop数据倾斜问题

13、hadoop中定义的主要共用InputFormats中,哪一个是默认值

14、hadoop任务中,什么是InputSplit?

15、Hadoop中job和Tasks之间的区别是什么?

16、请描述hadoop2.x中HDFS的高可用架构(high availability)是如何实现的。

17、简述Apache原生Hadoop,CDH,HDP的区别。

18、Hadoop的分片机制 为什么进行分片 有啥好处 是基于什么原理分片的

19、Hadoop保存文件的特性 :分片 备份

20、hadoop中的combine函数的作用?

21、hadoop的TextInputFormat作用是什么,如何自定义实现

22、请说明hadoop为何不适合存情大量小文件。假如有小文件存储需求如何优化。

23、常见端口号和配置文件

24、hadoop shuffle过程

25、Hadoop的适用场景?比如说适用于OLAP还是OLTP

二、HDFS

1、传输过程中DataNode挂掉怎么办

2、介绍一下HDFS的存储过程

3、 HDFS是一个分布式文件系统,其适合的读写任务是

4、HDFS 的体系结构

5、传统的关系型数据库和Hadoop有什么区别?

6、怎么查看某个目录下的小文件

三、MapReduce

1、MapReduce工作的各个阶段

2、如果没有定义partitioner,那数据在被送达reduce前是如何被分区的?

3、map端的一个分区数据如果有大量的重复,怎么去重?

4、手写MapReduce

四、Yarn

1、namenode、datanode、secondnamenode怎么协作的?

2、hadoop的namenode.2NN.hafs的文件 上传

五、实操部分

1、详解Hadoop的WordCount

2、hadoop二次排序

3、小表关联大表怎么实现的|切片,shuffle,reduce阶段,map阶段,Yarn流程

4、hadoop 实现TopN

5、Hadoop是自己搭的吗,用的什么版本?hadoop、flume、kafka、sqoop、spark版本号

6、有没有使用OZ调度hadoop任务

7、hadoop命令:创建、查看文件、列出文件状态

8、在处理10pb级别的数据时,大概需要的集群配置,计算瓶颈,解决方案

最新文章

  1. HAOI2017前
  2. 用Fmx调用Bass.dll
  3. HV和VM 内存性能测试对比结果
  4. 回忆读windows 核心编程
  5. Navi.Soft30.框架.WebMVC.开发手册
  6. chrome断点续传功能
  7. Hibernate笔记——缓存机制详细分析
  8. C# Process类_进程管理器Demo
  9. mysql 查询重复的(不区分大小写)数据的SQL优化
  10. linux中段错误的处理
  11. Leetcode 136 137 260 SingleNumber I II III
  12. Python 单向链表、双向链表
  13. 【机器学习实战 第九章】树回归 CART算法的原理与实现 - python3
  14. I/O-----字符输入流
  15. python的基本流程控制
  16. 大数据 时间同步问题 解决hbase集群节点HRegionServer启动后自动关闭
  17. seaJS简介和完整实例
  18. PAC-based methods
  19. HI35XX NVR
  20. SVN Hook造成SVN提交速度慢的问题

热门文章

  1. 安装ceph (快速) 步骤三: Ceph 客户端
  2. 监控Redis集群,有两种方法
  3. 使用elasticdump迁移es数据
  4. 阿里云SLB的http强制转https
  5. k8s安装常用软件的yaml文件
  6. 推送本地镜像到Dokcer Hub仓库
  7. 《Deep Feature Extraction and Classification of Hyperspectral Images Based on Convolutional Neural Networks》论文笔记
  8. hive数据导出到linux本地
  9. 洛谷P2880 [USACO07JAN] Balanced Lineup G(树状数组/线段树)
  10. 代码随想录第八天 |344.反转字符串 、541. 反转字符串II、剑指Offer 05.替换空格 、151.翻转字符串里的单词 、剑指Offer58-II.左旋转字符串