(1)程序先找到数据存储的目录

(2)遍历目录对每个文件进行切片

(3)遍历一个文件:

    获取文件大小

    计算切片大小

    默认情况下,切片大小等于blocksize

    每次切片时都要判断剩下部分师否大于块的1.1倍,小于1.1划分为1个切片

    讲切片信息写到一个切片规划文件中

    整个切片的核心过程在getSplit()方法中完成。

    InputSplit只记录了切片元数据信息,比如起始位置、长度以及节点列表。

(4)提交切片规划文件到YARN上,YARN的MrAppMaster可以根据切片规划文件计算开启MapTask数

  首先进入写切片的方法

再次进入,打断点

进入第1个断点,进入到FileInputFormat类中.FileInputFormat继承了InputFormat类,同样InputFormat的实现类还有:

向下执行获取最大值最小值参数,来设置切片大小,遍历目录,对文件切片

对文件切片,先进行判断文件是否支持切片,然后计算切片大小

最新文章

  1. 如何在没有域的环境中搭建AlwaysOn(二)
  2. 深入理解css系列:meta标签
  3. Ubuntu下如何安装YouCompleteMe插件
  4. 在silverlight中通过WCF连接ORACLE DB数据库(转)
  5. zendStudio 10.5破解
  6. 使用supervisor提高nodejs调试效率 (已验证)
  7. mysql优化SQL语句的一般步骤及常用方法
  8. List.Select按字符串选择属性
  9. mysql从一个表中拷贝数据到另一个表中sql语句
  10. Moving From Objective-C to C++
  11. UVA 12075 - Counting Triangles(容斥原理计数)
  12. IOS开发中如何给UIImageView添加点击事件
  13. 基于ExtJs6前台,SpringMVC-Spring-Mybatis,resteasy,mysql无限极表设计,实现树状展示数据(treepanel)
  14. python装饰器扩展之functools.wraps
  15. idea 的一些基本的配置
  16. java连接CentOS7上的redis
  17. 单分子荧光原位杂交(smFISH)
  18. android 上下边框线
  19. docker 容器创建参数错误记录
  20. springboot之redis的应用

热门文章

  1. ActiveMQ 常见集群模式
  2. vue 中引入iframe,动态设置其src,遇到的一些小问题总结
  3. java入门与进阶P-6.1+P-6.2
  4. 基于Apache Hudi 构建Serverless实时分析平台
  5. C语言知识补充 --来自菜鸟教程的指针复习
  6. ASP.NET Core知识之RabbitMQ组件使用(二)
  7. 获取某地模型并用Cesium加载(一)
  8. JZOJ 1075. 【GDKOI2006】新红黑树
  9. 基于Docker部署Dubbo+Nacos服务
  10. Java语言输出菱形图型