todo

一、大数据诞生,概述

数据是一种可以被鉴别的对客观事物进行记录的符号,丰富的数据支撑可以让我们更好地了解事物在现实世界的运行规律,现在是数据的时代,数据非常重要并且蕴含巨大的价值。

大数据的出现,本质就是为了解决海量数据的处理难题,大数据的核心工作就是从海量的高增长,多类别,低信息密度的数据中挖掘出高质量的结果。

大数据使用分布式技术完成海量数据的处理,得到数据背后蕴含的价值。

特征:体积,种类,价值,速度,质量;volume,variety,value,velocity,veracity

Hadoop是一款开源的分布式处理技术栈,提供了

  • 分布式数据存储技术Hadoop HDFS
  • 分布式数据计算技术 Hadoop MapReduce
  • 分布式资源调度技术 Hadoop YARN

Apache Hadoop开源 ---> Apache HBase NoSQL数据库 ---> Apache Flume流式数据传输工具 ---> Apache Kafka分布式消息队列 ---> Apache Hive分布式SQL平台 ---> Apache Spark分布式内存计算 ---> Apache Flink流计算平台 ...

二、大数据的软件生态也是围绕这几点核心工作展开的

  • 数据存储:保存海量待处理数据
  • 数据计算:海量数据的价值挖掘
  • 数据传输:协助各个环节的数据传输

img

img

img

img

img

img

三、Hadoop概述

Hadoop是分布式软件框架,可以部署在1台乃至成千上万台服务器节点上协同工作。内部细分为三个功能组件,分别是HDFS组件,MapReduce组件和YARN组件。

Hadoop有官方社区版(http://hadoop.apache.orrg)和商业发行版,商业发行版有CDH和星环。

以下使用Hadoop3.3.4;

四、分布式存储

数据量变大的时候,单机存储的能力有上限,需要考数量解决问题,多个服务器一起存数据,读写速度,cpu,内存等各方面都会带来成倍的提升

——-——		   ——-——
|文件1| 		|服务器|
|文件2|	--->|服务器|
|文件3| 		|服务器|
——-——		   ——-——

五、分布式的基础架构

大数据体系中,分布式的调度主要有两类架构模式,保证众多服务器一起高效工作:

  • 去中心化
  • 中心化

去中心化众多服务器之间基于特定规则进行同步协调,中心化有一个主服务器进行调度;

大数据框架大多数基础架构上都是符合中心化模式的,有一个中心节点统筹其他服务器的工作,Hadoop就是一个中心化模式架构的技术框架。

六、HDFS的基础架构

HDFS(Hadoop distributed file system)Hadoop分布式文件系统是Hadoop技术栈提供的数据存储解决方案,可以在多台服务器上构建存储集群,存储海量数据。

HDFS集群:

主角色NameNode
主角色辅助角色:SecondaryNameNode
从角色:DataNode

主角色管理HDFS集群和DataNode角色,从角色负责数据的存储,辅助角色协助主角色整理元数据。

	NameNode<------>SecondaryNameNode
	|		|
DataNode 	DataNode

https://www.bilibili.com/video/BV1WY4y197g7?spm_id_from=333.788.videopod.episodes&vd_source=1a563cd2b3f3fdeb2a16cbbf18022d2f&p=7

https://www.bilibili.com/video/BV1WY4y197g7?spm_id_from=333.788.videopod.episodes&vd_source=1a563cd2b3f3fdeb2a16cbbf18022d2f&p=22

posted @ 2025-12-11 15:41  黑马-  阅读(4)  评论(0)    收藏  举报