您查看的文章来源于http://www.oklinux.cn
GPFS V2.3 Problem Determination Guide,其中包含了进行故障诊断时所包含的步骤,以及 GPFS 的错误消息。
生成并安装可移植层
GPFS 可移植层(PL)是一组二进制文件,需要从源代码开始进行本地编译,以便匹配作为 GPFS 集群一部分的计算机上的 Linux 内核和配置。对于这个示例集群来说,这个过程是在一个存储节点上进行的。所生成的文件会使用 CSM 和 CFM 拷贝到每个节点上。(详细信息请参看 分发 GPFS 可移植层 一节的内容)。这是一个有效的方法,因为所有计算机都使用相同的架构,并且使用的是相同的内核。编译 GPFS PL 的命令可以在 /usr/lpp/mmfs/src/README
中找到。这个示例集群使用的步骤如下所示:
- 导出
SHARKCLONEROOT=/usr/lpp/mmfs/src
。
- 输入
cd /usr/lpp/mmfs/src/config, cp site.mcr.proto site.mcr
。
- 编辑新文件 site.mcr 来匹配要使用的配置。确保以下行没有被注释掉:
#define GPFS_LINUX
#define GPFS_ARCH_X86_64
LINUX_DISTRIBUTION = REDHAT_AS_LINUX
#define LINUX_DISTRIBUTION_LEVEL 34
#define LINUX_KERNEL_VERSION 2042127
(注意 a #
不代表注释。)
- 输入
cd /usr/lpp/mmfs/src
。
- 使用
make World
创建 GPFS PL。
- 使用
make InstallImages
将 GPFS PL 拷贝到 /usr/lpp/mmfs/bin
目录中。GPFS PL 中包含以下 4 个文件:
tracedev
mmfslinux
lxtrace
dumpconv
- 拷贝一组这些文件(每个对应内核使用一个)到 CSM 结构中,以便使用 CFM 进行分发。
创建 GPFS 集群
您可以使用几个独特的步骤为这个例子创建 GPFS 集群。尽管所有这些步骤都不是必须的,但是处理集群中不同类型的节点(存储节点或其他节点)是一种好方法。
第一个步骤是创建一个只包含存储节点和 quorum 节点的集群:一共有 5 个节点。在创建包含要包括的所有节点的存储接口的主机简写名时,请使用描述符文件,描述符文件之后再加上以下信息:
- 管理节点或客户机:定义节点是否构成从中提取配置和文件系统管理器的一个资源池的一部分。示例集群中只包括了这个资源池中的存储节点。
- Quorum 或 nonquorum:定义节点是否应该算做一个 quorum 节点。示例集群中的 quorum 节点是存储节点和 tiebreaker 节点
quor001
。
创建集群的命令如下:
mmcrcluster -n stor.nodes -C gpfs1 -p stor001_s -s stor002_s -r /usr/bin/ssh -R
/usr/bin/scp
|
-C
标志设置了集群名。
-p
设置主配置服务器节点。
-s
设置次配置服务器节点。
-r
为 GPFS 使用的远程 shell 程序设置完整路径。
-R
设置 GPFS 使用的远程文件拷贝程序。
下面是示例集群中使用的 stor.nodes
节点描述符文件:
stor001_s:manager-quorum
stor002_s:manager-quorum
stor003_s:manager-quorum
stor004_s:manager-quorum
quor001_s:client-quorum
|
对要加入集群中的所有其他节点,例如计算节点、用户节点和管理节点,请在以后步骤中添加类似于 <nodename>_s:client-nonquorum
的项。
在 quorum 节点上启用 unmountOnDiskFail
下一个步骤是在 tiebreaker 节点上使用 mmchconfig unmountOnDiskFail-yes quor001_s
启用