博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
了解Hadoop和大数据
阅读量:4698 次
发布时间:2019-06-09

本文共 828 字,大约阅读时间需要 2 分钟。

1. 场景:

   现在人产生数据越来越快,机器则更快,所以需要另外的一种处理数据的方法。

   硬盘容量增加,但是性能没跟上,解决办法是将数据分到多块硬盘,然后同时读取。

   问题:

     硬件问题 -- 复制数据  解决(RAID)
     分析需要从不同的硬盘读取的数据:  MapReduce

  Hadoop: 

      1) 可靠的共享存储(分布式存储)
      2) 抽象的分析接口(分布式分析)

 

2. 大数据

    -- 可以理解为不能使用一台机器处理的数据

   大数据的核心是样本 = 总体

   特性:  大量性   快速性   多样性  易变性  准确性   复杂性 

   关键技术: 

    1) 数据分布在多台机器
         -- 可靠性: 每个数据块都复制到多个节点
             性能: 多个节点同时处理数据
    2) 计算随数据走
       网络IO速度<<本地磁盘速度,大数据系统会尽量地将任务分配到离数据最近的机器上运行
       (程序运行时,将程序及其依赖包都复制到数据所在的机器运行)
       代码向数据迁移,避免大规模数据时,造成大量数据迁移的情况,尽量让一段数据的计算发生在同一台机器上
    3) 串行IO取代随机IO
       传输时间<<寻道时间,一般数据写入后不再修改

** 大数据主要解决的是数据比较多,所以存放到多台机器上,那么需要关注数据存储的问题,以及数据的安全保障,还有数据的计算问题,计算的性能;

3. Hadoop

    Hadoop高容错、高可靠性、高扩展性,特别适合写一次,读多次的场景。

    适合:

        大规模数据
        流式数据(写一次,读多次)
        商用硬件(一般硬件)

   不适合:

       低延迟的数据访问
       大量的小文件
       频繁修改文件(基本就是写1次)

** 4. Hadoop架构

      Hadoop架构

       HDFS: 分布式文件存储

       YARN:分布式资源管理
       MapReduce:分布式计算
       Others:利用YARN的资源管理功能实现其他的数据处理方式

内部各个节点基本都是采用Master-Woker架构

 

 

        

转载于:https://www.cnblogs.com/yys369/p/5852293.html

你可能感兴趣的文章
leetcode133 - Clone Graph - medium
查看>>
一点小基础
查看>>
PHP 自动加载类 __autoload() 方法
查看>>
JDK中的Timer和TimerTask详解(zhuan)
查看>>
【python练习】ATM&购物商城程序
查看>>
nginx 日志问题(\x22)
查看>>
装饰器、迭代器、生成器
查看>>
类对象作为类成员
查看>>
面向对象和面向过程的区别及优劣对比详解
查看>>
const与指针
查看>>
thsi指针的一些用法及作用
查看>>
c++友元
查看>>
c++运算符重载
查看>>
一元运算符重载
查看>>
Windows 远程栈溢出挖掘
查看>>
(网页)the server responded with a status of 403 (Forbidden)
查看>>
葡萄城报表介绍:Java 报表
查看>>
android 通知消息一
查看>>
UNET学习笔记2 - 高级API(HLAPI)
查看>>
腾讯编程马拉松2012第一题
查看>>