hdfs(分布式文件系统)优缺点
2024-10-20 16:49:34
hdfs(分布式文件系统)
优点
支持超大文件
支持超大文件。超大文件在这里指的是几百M,几百GB,甚至几TB大小的文件。一般来说hadoop的文件系统会存储TB级别或者PB级别的数据。所以在企业的应用中,数据节点有可能有上千个。
检测和快速应对硬件故障
在集群的环境中,硬件故障是常见的问题。因为有上千台服务器连接在一起,这样会导致高故障率。因此故障检测和自动恢复是hdfs文件系统的一个设计目标。
流式数据访问
Hdfs的数据处理规模比较大,应用一次需要访问大量的数据,同时这些应用一般都是批量处理,而不是用户交互式处理。应用程序能以流的形式访问数据集。主要的是数据的吞吐量,而不是访问速度。
简化的一致性模型
大部分hdfs操作文件时,需要一次写入,多次读取。在hdfs中,一个文件一旦经过创建、写入、关闭后,一般就不需要修改了。这样简单的一致性模型,有利于提高吞吐量。
缺点
低延迟数据访问
低延迟数据。如和用户进行交互的应用,需要数据在毫秒或秒的范围内得到响应。由于hadoop针对高数据吞吐量做了优化,牺牲了获取数据的延迟,所以对于低延迟来说,不适合用hadoop来做。
大量的小文件
Hdfs支持超大的文件,是通过数据分布在数据节点,数据的元数据保存在名字节点上。名字节点的内存大小,决定了hdfs文件系统可保存的文件数量。虽然现在的系统内存都比较大,但大量的小文件还是会影响名字节点的性能。
多用户写入文件、修改文件
Hdfs的文件只能有一次写入,不支持写入,也不支持修改。只有这样数据的吞吐量才能大。
不支持超强的事务
没有像关系型数据库那样,对事务有强有力的支持。
最新文章
- linux命令初识
- 【Win10开发】关于汉堡菜单-SplitView的用法
- 使用MiniProfiler跟踪MVC + EF + Bootstrap 2 权限管理系统的性能消耗
- 【jackson 异常】com.fasterxml.jackson.databind.JsonMappingException异常处理
- python3爬虫再探之EXCEL
- java中获得jar包执行路径的方法
- 「Poetize7」电话线路
- cf443B Kolya and Tandem Repeat
- HDU 4588 Count The Carries 计算二进制进位总数
- JDK源码阅读——ArrayList
- 可能是讲解ARM中断和中断嵌套最通俗易懂的文章
- thinkinginjava学习笔记07_多态
- 2018-2019-2 网络对抗技术 20165319 Exp3 免杀原理与实践
- js 阻止事件执行
- C#基础概念总结
- ArcGis Python脚本——批量添加字段
- Paired t-test
- java设计模式之动态代理的概述和实现
- 2016-06-14 发布 解决Centos7初次开机提示Initial setup of CentOS Linux 7 (core)
- [环境配置]Ubuntu 16.04 源码编译安装OpenCV-3.2.0+OpenCV_contrib-3.2.0及产生的问题