【Hadoop面试】基础概念、HDFS、MapReduce、Yarn、实战
一、Hadoop概念及架构
1、是否看过Hadoop源码
2、正常工作的hadoop集群中hadoop都分别需要启动哪些进程,他们的作用分别是什么
3、hadoop和spark中的文件缓存方式
4、hadoop各组件之间通信Rpc协议
5、Hadoop的读数据流程
6、对Hadoop生态圈中的哪些技术比较了解
其他问法:你了解的hadoop生态圈的框架,及其大概在怎样的一个位置
7、列出几个配置文件优化hadoop,怎么做数据平衡
8、关于hadoop相关的调优
9、Hadoop启动的时候都有哪些进程,进程名称
10、Hadoop是什么
11、hadoop的块大小,从哪个版本开始是128M
12、Hadoop数据倾斜问题
13、hadoop中定义的主要共用InputFormats中,哪一个是默认值
14、hadoop任务中,什么是InputSplit?
15、Hadoop中job和Tasks之间的区别是什么?
16、请描述hadoop2.x中HDFS的高可用架构(high availability)是如何实现的。
17、简述Apache原生Hadoop,CDH,HDP的区别。
18、Hadoop的分片机制 为什么进行分片 有啥好处 是基于什么原理分片的
19、Hadoop保存文件的特性 :分片 备份
20、hadoop中的combine函数的作用?
21、hadoop的TextInputFormat作用是什么,如何自定义实现
22、请说明hadoop为何不适合存情大量小文件。假如有小文件存储需求如何优化。
23、常见端口号和配置文件
24、hadoop shuffle过程
25、Hadoop的适用场景?比如说适用于OLAP还是OLTP
二、HDFS
1、传输过程中DataNode挂掉怎么办
2、介绍一下HDFS的存储过程
3、 HDFS是一个分布式文件系统,其适合的读写任务是
4、HDFS 的体系结构
5、传统的关系型数据库和Hadoop有什么区别?
6、怎么查看某个目录下的小文件
三、MapReduce
1、MapReduce工作的各个阶段
2、如果没有定义partitioner,那数据在被送达reduce前是如何被分区的?
3、map端的一个分区数据如果有大量的重复,怎么去重?
4、手写MapReduce
四、Yarn
1、namenode、datanode、secondnamenode怎么协作的?
2、hadoop的namenode.2NN.hafs的文件 上传
五、实操部分
1、详解Hadoop的WordCount
2、hadoop二次排序
3、小表关联大表怎么实现的|切片,shuffle,reduce阶段,map阶段,Yarn流程
4、hadoop 实现TopN
5、Hadoop是自己搭的吗,用的什么版本?hadoop、flume、kafka、sqoop、spark版本号
6、有没有使用OZ调度hadoop任务
7、hadoop命令:创建、查看文件、列出文件状态
8、在处理10pb级别的数据时,大概需要的集群配置,计算瓶颈,解决方案
最新文章
- HAOI2017前
- 用Fmx调用Bass.dll
- HV和VM 内存性能测试对比结果
- 回忆读windows 核心编程
- Navi.Soft30.框架.WebMVC.开发手册
- chrome断点续传功能
- Hibernate笔记——缓存机制详细分析
- C# Process类_进程管理器Demo
- mysql 查询重复的(不区分大小写)数据的SQL优化
- linux中段错误的处理
- Leetcode 136 137 260 SingleNumber I II III
- Python 单向链表、双向链表
- 【机器学习实战 第九章】树回归 CART算法的原理与实现 - python3
- I/O-----字符输入流
- python的基本流程控制
- 大数据 时间同步问题 解决hbase集群节点HRegionServer启动后自动关闭
- seaJS简介和完整实例
- PAC-based methods
- HI35XX NVR
- SVN Hook造成SVN提交速度慢的问题
热门文章
- 安装ceph (快速) 步骤三: Ceph 客户端
- 监控Redis集群,有两种方法
- 使用elasticdump迁移es数据
- 阿里云SLB的http强制转https
- k8s安装常用软件的yaml文件
- 推送本地镜像到Dokcer Hub仓库
- 《Deep Feature Extraction and Classification of Hyperspectral Images Based on Convolutional Neural Networks》论文笔记
- hive数据导出到linux本地
- 洛谷P2880 [USACO07JAN] Balanced Lineup G(树状数组/线段树)
- 代码随想录第八天 |344.反转字符串 、541. 反转字符串II、剑指Offer 05.替换空格 、151.翻转字符串里的单词 、剑指Offer58-II.左旋转字符串