您查看的文章来源于http://www.oklinux.cn
示例集群的一些额外设计和布局细节包括:
- 管理服务器——管理服务器的功能可以放在一台服务器或多台服务器上。在单台服务器环境中,管理服务器以独立模式运行。也可以设置高可用性管理服务器。可以使用 CSM 高可用性(HA)软件在两台服务器之间进行 “心跳测试”,在发生故障情况时管理服务器之间的动态故障屏蔽。引入额外管理服务器的另一种可行方法是:当 HA 在环境中不重要的时候,使用复制设置。在这种情况下,可以把管理服务器的数据备份到其他活动系统,可以通过手动设置将备份系统联机以便接管管理工作(如果有必要的话)。在 图 1 中,管理网络连接用红色显示。管理服务器是 CSM 服务器,它使用 CSM 功能专门控制集群:负责系统安装、监视、维护和其他任务。在这个集群中,只有一台管理服务器。
- 存储服务器和磁盘 —— 可以用多种机制把多台存储服务器连接到基于磁盘的后端。可以用光纤、铜缆或结合使用二者,直接把存储器连接到集群,或者通过存储区域网络(SAN)交换机连接(请参阅 图 1)。这些服务器为集群中的其他服务器提供共享的存储访问。如果需要数据备份,请用额外的铜缆或光纤链路把备份设备连接到存储服务器。对于示例集群,存储的备份端是个单一实体,提供了跨集群的共享文件系统访问。本系列的下一篇文章介绍存储硬件和集群文件系统设置、配置和实现的细节。
- 用户节点 —— 理想情况下,集群的计算机节点不应该接受外部连接,只应当由管理员通过管理服务器访问。系统用户可以登录到用户节点(或登录节点),在集群上运行他们的工作。每个用户节点都包含带有完整编辑功能的镜像、必要的开发工具、编译器和开发支持集群的应用程序和检索结果所必需的所有其他内容。
- 调度器节点 —— 为了在集群上运行工作负荷,用户应当把自己的工作提交到调度器节点。在一个或多个调度器节点上运行的调度器守护程序使用预定的策略在集群上运行工作负荷。与计算机点一样,调度器节点也不应当接受来自用户的外部连接。系统管理员应当从管理服务器管理它们。
- 计算节点 —— 这些节点运行集群的工作负荷,接受来自调度器的作业。计算机节点是集群中最常使用的部分。系统管理员可以轻易地使用管理服务器重新安装或配置它们。
- 外部连接 —— 示例外部连接在 图 1 中用绿色显示。这些连接被看作在集群之外,所以本文将不多做说明。
硬件配置
装配好机架并把它们放在适当位置上,连接好全部电缆之后,仍要做大量的硬件配置工作。本文不介绍特定于某种具体集群的特定电缆连接细节。本文使用了上面列出的示例集群设计作为具体示例,说明了在安装集群前所需的硬件配置
逻辑网络设计
在安装集群时最常被忽略的任务就是逻辑网络设计。理想情况下,在实现集群前,应该在纸上进行逻辑设计。有了逻辑网络设计之后,就用它创建主机文件。在小型集群中,如果网络上没有太多设备,可以手工编写主机文件。但是,通常最好是生成一个命名规范,然后编写一个定制脚本,自动生成主机文件。
确保网络上的所有设备都在主机文件中表示出来。请看如下示例(包含示例名称):
- 管理服务器 (mgmt001 - mgmtXXX)
- 存储服务器 (stor001 - storXXX)
- 计算节点 (node001 - nodeXXX)
- 调度器节点 (schd001 - schdXXX)
- 用户节点 (user001 - userXXX)
这个命名规范只涉及了网络中的五类计算机系统,而且只有一个网络,所以还不够好。还要考虑存储网络和计算机网络,以及设备管理网络。所以这个文件还需要扩展。需要访问集群文件系统的每个节点都需要存储网络上的一个地址。每个节点在计算网络上需要两个地址:一个用于计算地址,另一个用于基板管理控制器(BMC),BMC 用来进行硬件监视和电源控制。表 1 用示例 IP 地址范围描述了更全面的命名规范。
表 1. 主机文件命名规范
Device |
Compute 192.168.0.0/24 |
BMC 192.168.0.0/24 |
Storage 192.168.1.0/24 |
Device 192.168.2.0/24 |
External ext n/w |
Management server |
mgmt001 |
mgmt001_d |
mgmt001_s |
mgmt001_m |
mgmt001_e |
Storage server |
stor001 |
stor001_d |
stor001_s |
stor001_m |
stor001_e |
用户节点 |
user001 |
user001_d |
user001_s |
无 |
无 |
Scheduler nodes |
schd001 |
schd001_d |
schd001_s/ |
无 |
无 |
User nodes |
node001 |
node001_d |
node001_s |
无 |
无 |
Compute switches |
无 |
无 |
无 |
gigb01a |
无 |
Storage switches |
无 |
无 |
无 |
gigb01b |
无 |
Terminal servers |
无 |
无 |
无 |
term001 |
无 |
Storage controller A/B |
无 |
无 |
无 |
disk01a/b |
无 |
LCM/KVM/RCM |
无 |
无 |
无 |
cons001 |
无 |
在实现的时候,这个方案生成与 下载 中能访问的示例类似的主机文件。这个小的示例集群包括 16 个计算节点、一个管理服务器、一个存储服务器、一个用户节点和一个调度器节点,放在两个机架内,并附加了相关的设备。虽然没有提供一个大型集群,但对这个示例集群来说已经足够了,如果需要,可以很容易地把它扩展成更大的集群。