Hadoop for .NET Developers(一):理解Hadoop

这些年来,大数据已经成为分析业界的兴奋源头。对于这个博客系列的目的,我将松散定义这个术语指的重点是从数据核心业务系统里数据来源的扩张 - 传统商业智能的范畴 - 包含新的(不管是在历史上被忽视或新的可用)数据源。

这是一届大数据的一个粗略的简化。但它固有的与已推动通过新的数据平台。这些新的数据工作的挑战。当我们的注意力是在Hadoop的,最广泛的认可,这些新的数据平台。大数据的这样一个有限的定义似乎就够了。

Hadoop是一个弹性的。分布式的,无模式的数据处理平台。是理想的。你有大量的数据集,单记录含有少量值。如日志文件,由于它提供了一个低的投入来进行数据訪问的解决方式。这也是对须要复杂分析和解释复杂数据一个良好的平台,比如XML或JSON文档,图像文件等,和/或可能受到可变的解释,比如客户推文(在JSON文件)。

此外,当你须要大规模的可扩展性超出了能够实现与传统的关系型数据库平台,Hadoop是一个绝佳平台。话虽如此,我没有找到这最后的方案是适用于我的很多客户(尽管它是适用于一些)。对于我工作以及绝大多数的人。Hadoop的灵活性和经济性往往是来探索这个平台最有说服力的理由。


Hadoop for .NET Developers(二):基础架构

Hadoop是一组相互关联的项目组件的实现。

核心组件是MapReduce的,用于处理作业的运行,和一个储存层。通常被实现作为Hadoop分布式文件系统(HDFS)。对于这篇文章的目的,我们将假定HDFS正在使用中。

Hadoop的组件是通过一系列被称为数据(或计算)节点的server来实现。这些节点是数据被存储和处理的地方。

的名称的节点server保留在环境中的数据节点。其数据被存储哪个节点上的轨道,并提供了数据的节点为一个单一实体。

这样的神秘表示被称为一个簇。

假设你所熟悉的RDBMS实现术语集群,请注意,不一定不论什么共享存储或节点之间的其它资源。 Hadoop集群是纯粹的逻辑。

最新文章

  1. Genymotion报Unable to load virtualbox engine错误
  2. Sublime Text 基础配置
  3. UNDER THE HOOD OF THE NEW AZURE PORTAL
  4. C#预处理器指令 ,你造吗??? (●'◡'●)
  5. Java【小考】
  6. ubuntu13.04下安装jdk7
  7. I.MX6 android 移除shutdown功能
  8. 微信JS-SDK签名signature错误代码4029
  9. java.lang.ClassCastException: java.math.BigDecimal cannot be cast to java.lang.String
  10. 常见的HTTPS攻击方法
  11. Form( 表单) 组件
  12. 用 alias 给常用命令取个别名
  13. Mono for Android 显示远程图片
  14. 电器ERP行业案例——环力科技
  15. Nginx之使用nginx搭建简单的文件服务器
  16. JS判断手机端是否安装某应用
  17. day14-函数
  18. docker mac
  19. ApiPost自动化测试基础之:流程测试
  20. AES 加密256位 错误 java.security.InvalidKeyException: Illegal key size or default parameters

热门文章

  1. Google代码规范工具Cpplint的使用
  2. django 笔记8 url模板 自定义函数 simple_tag
  3. Mysql优化ibdata1大小
  4. BZOJ 1024 SCOI2009 生日快乐 暴搜
  5. The evolution of cluster scheduler architectures--转
  6. fullpage中大的图片超过一屏怎么在手机端滑动显示?
  7. Spring深入浅出(二)IOC的单例 ,继承,依赖,JDBC,工厂模式以及自动装载
  8. js控制分页打印、打印分页示例
  9. 隐私:随机选择 MAC 地址
  10. mysql的关联查询简写