大数据简述

跟着同事学习一下大数据。

无处不在的大数据

分类

  1. 静态数据
  2. 动态数据(年龄,喜好,推荐)

来源

  1. 谷歌文件系统(GFS)
  2. MapReduce
  3. BigTable
  4. hadoop
  5. spark

大数据框架

分布式处理的软件框架的总称,

  1. 存储
    1. 分布式存储
      1. NameNode:记录每个块的信息
      2. DataNode:存储源信息
    2. 降低硬件成本
    3. 软件提供可靠性
      1. 分开存储;可用性不能保证
  2. 分析——MapReduce
    1. 分而治之
    2. Map
    3. Shuffle
    4. Reduce

里程碑-YARN

接受任务/资源调度

  1. Resource Manager:接受任务
  2. Node Manager:启动容器

ZooKeeper:分布式协调服务

  1. 命令服务
  2. 配置管理
  3. 集群管理

脑裂现象:

  1. 投票机制~ 过半当leader
打赏
  • 版权声明: 本博客所有文章除特别声明外,均采用 Apache License 2.0 许可协议。转载请注明出处!
  • © 2019-2022 guoben
  • PV: UV:

微信