todo

一、大数据诞生，概述

数据是一种可以被鉴别的对客观事物进行记录的符号，丰富的数据支撑可以让我们更好地了解事物在现实世界的运行规律，现在是数据的时代，数据非常重要并且蕴含巨大的价值。

大数据的出现，本质就是为了解决海量数据的处理难题，大数据的核心工作就是从海量的高增长，多类别，低信息密度的数据中挖掘出高质量的结果。

大数据使用分布式技术完成海量数据的处理，得到数据背后蕴含的价值。

特征：体积，种类，价值，速度，质量；volume,variety,value,velocity,veracity

Hadoop是一款开源的分布式处理技术栈，提供了

分布式数据存储技术Hadoop HDFS
分布式数据计算技术 Hadoop MapReduce
分布式资源调度技术 Hadoop YARN

Apache Hadoop开源 ---> Apache HBase NoSQL数据库 ---> Apache Flume流式数据传输工具 ---> Apache Kafka分布式消息队列 ---> Apache Hive分布式SQL平台 ---> Apache Spark分布式内存计算 ---> Apache Flink流计算平台 ...

二、大数据的软件生态也是围绕这几点核心工作展开的

数据存储：保存海量待处理数据
数据计算：海量数据的价值挖掘
数据传输：协助各个环节的数据传输

三、Hadoop概述

Hadoop是分布式软件框架，可以部署在1台乃至成千上万台服务器节点上协同工作。内部细分为三个功能组件，分别是HDFS组件，MapReduce组件和YARN组件。

Hadoop有官方社区版（http://hadoop.apache.orrg）和商业发行版，商业发行版有CDH和星环。

以下使用Hadoop3.3.4；

四、分布式存储

数据量变大的时候，单机存储的能力有上限，需要考数量解决问题，多个服务器一起存数据，读写速度，cpu，内存等各方面都会带来成倍的提升

——-——		   ——-——
|文件1| 		|服务器|
|文件2|	--->|服务器|
|文件3| 		|服务器|
——-——		   ——-——

五、分布式的基础架构

大数据体系中，分布式的调度主要有两类架构模式，保证众多服务器一起高效工作：

去中心化
中心化

去中心化众多服务器之间基于特定规则进行同步协调，中心化有一个主服务器进行调度；

大数据框架大多数基础架构上都是符合中心化模式的，有一个中心节点统筹其他服务器的工作，Hadoop就是一个中心化模式架构的技术框架。

六、HDFS的基础架构

HDFS（Hadoop distributed file system）Hadoop分布式文件系统是Hadoop技术栈提供的数据存储解决方案，可以在多台服务器上构建存储集群，存储海量数据。

HDFS集群：

主角色NameNode
主角色辅助角色：SecondaryNameNode
从角色：DataNode

主角色管理HDFS集群和DataNode角色，从角色负责数据的存储，辅助角色协助主角色整理元数据。

	NameNode<------>SecondaryNameNode
	|		|
DataNode 	DataNode

https://www.bilibili.com/video/BV1WY4y197g7?spm_id_from=333.788.videopod.episodes&vd_source=1a563cd2b3f3fdeb2a16cbbf18022d2f&p=7

https://www.bilibili.com/video/BV1WY4y197g7?spm_id_from=333.788.videopod.episodes&vd_source=1a563cd2b3f3fdeb2a16cbbf18022d2f&p=22

posted @ 2025-12-11 15:41 黑马- 阅读(4) 评论(0) 收藏举报

刷新页面返回顶部

lm888