1. 服务器配置
主节点:
hostname: m1,m2,m3
vcore:48
内存:128G
SSD:1T(不算系统盘)
工作节点:
hostname: n1,n2,n3,n4
vcore : 48
内存:256G
SSD:1T(不算系统盘)
2. 节点职责描述
m1: 控制核心;cdh核心,hadoop主节点
m2: 网关入口;主节点高可用,一些组件的web ui,用户入口 ,(前期做计算任务的driver端,后期优化driver打散到各节点)
m3: 后台服务;组件元数据库,任务的history服务 ,(后期做元数据HA)
n1~n4: 算存一体;提供存储,计算等服务
3.角色分配策略
一、hdfs
NameNode一般在主节点上,初始化安装的时候没有高可用,所以有SecondaryNameNode的作为一个备份,NameNode它会将它拆分后进行分布式存储,其中的数据是分散在各个DataNode节点,且默认都会有3个副本,防止其中一台机器宕机使得数据缺失。balancer一般与namenode搭建在一起。
二、hive
hive metastore server与hiveServer2一般搭载一起上,但也可以分开,因为hive服务需要启动hiveServer2,访问sparksql需要启动metastore而hive gateway,事实上并不是真正的角色,也没有状态,但它们充当了告诉客户端配置应该放置在哪里。 添加Hive服务时,默认情况下会创建Hive网关。
三、cloudera manager server
这个可以根据实际搭建,这个相当于是集群的监听器,在网页上出现的的图表也就是这个监听器类似的,这个可以搭建在主节点上,但若是主节点上分配的角色过多会影响其服务器的性能。
四、spark
这个角色可以分配这任意的机器上,按实际情况调整。spark-gateway全部部署在各个机器上,这个对于个人理解来说相当于spark、spark2机器之间的通信功能。
五、yarn
jobhistory与resourcemanager进行通信,所以部署上一般在同一台机器上放在主节点上,而nodemanager分配在各个节点上
六、zookeeper
这个若是机器足够一般是奇数的,所以部署在m节点上比较合适。奇数台、高可用、与管理角色共置
七、hue
会对外提供一个web ui,以便于数据分析和数据开发做即席查询。这个服务随意部署,根据自己的机器部署情况来看。
4.角色划分详情表
| 控制核心 | 网关+入口 | 元数据+历史服务 | 存算一体 | |||||
| m1 | m2 | m3 | n1 | n2 | n3 | n4 | ||
| cloudera management | Alert Publisher | ✅ | ||||||
| Event Server | ✅ | |||||||
| Host Monitor | ✅ | |||||||
| Service Monitor | ✅ | |||||||
| hdfs | NameNode | ✅ | ✅ | |||||
| JournalNode | ✅ | ✅ | ✅ | |||||
| Failover Controller | ✅ | ✅ | ||||||
| HttpFs | ✅ | |||||||
| DataNode | ✅ | ✅ | ✅ | ✅ | ||||
| yarn | ResourceManager | ✅ | ✅ | |||||
| NodeManager | ✅ | ✅ | ✅ | ✅ | ||||
| JobHistory Server | ✅ | |||||||
| hive | Hive MetaStore Server | ✅ | ||||||
| HiveServer2 | ✅ | |||||||
| HiveGateway | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | |
| spark | Spark History Server | ✅ | ||||||
| Spark Gateway | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | |
| impala | Impala StateStore | ✅ | ||||||
| Impala catalog Server | ✅ | |||||||
| Impala Daemon | ✅ | ✅ | ✅ | ✅ | ||||
| zookeeper | zk-node | ✅ | ✅ | ✅ | ||||
| hue | Hue Server | ✅ | ||||||
| Hue Load Balancer | ✅ |
5. 未来升级项
-
work节点扩展硬盘,只需将新盘挂载到新目录/hadoop/data2或/hadoop/data3,更新hdfs配置就能完成存储扩展(支持热加入)
-
新增work节点,配置完全复制目前的work节点角色即可
-
后期大数据任务多时,将m2的driver职责下沉到其他节点
-
后期元数据库,元数据服务可做高可用