云宏超融合一体机关于分布式存储FAQ

2018-07-12

云宏超融合一体机关于分布式存储FAQ,如何安装分布式存储?以及安装过程中出现的问题详解。

 

Q:如何安装分布式存储?

A:

1 主要进程和功能

 

 

说明:带☆标项都是主节点才有的进程。

2 安装进度描述

 

 


 

3 安装日志

日志路径为/opt/sdsom/var/log/agent.log。

Q:安装过程中会出现哪些问题?

A:

1 安装WinStore软件包出错
1.1 原因和定位方法
安装时出现错误:

 

 

执行#sh –x install_local.sh查看脚本执行流程,有以下错误码:

 

返回码127相关信息:127 “command not found” illegal_command Possible problem with $PATH or a typo
文件路径:winstore_installer/pkgs/sds/sandstone-v2.7.5-linux-x64-installer.run

 

 

 

发现两个文件MD5码不一致,可断定文件在传输过程或解压过程中出现损坏。

1.2 解决方法
安装卡在9%
2.1 原因和定位方法
内部网络(126.251.xxx.xxx),看是否能ping通。
说明:
状态。
1.网口状态down

,然后在两个节点上都执行arp –a,查看对端的mac地址是否正确。如下图对端查询到6.75的mac地址与ifconfig查询到的一致,如果出现arp –a查询到mac地址是incomplete则会出现ping不通。


 

2.2 解决方法
1. 网口状态down

的操作,然后再次ping看能否正常识别mac地址。

3 安装卡在27%
3.1 原因和定位方法
27%为初始化SSD盘阶段。
Multipath占用磁盘
SSD盘时失败,提示设备忙:


 

使用lsblk查看磁盘分区情况,发现磁盘配置了multipath:

 

 

说明:
结论:multipath占用了磁盘,导致在初始化SSD盘时失败。
3.2 解决方法

因为Multipath占用磁盘,所以必须先清除multipathmultipath.conf,过滤物理磁盘:

以下仅供参考,可视情况更改:

## Use user friendly names, instead of using WWIDs as names.

defaults {
user_friendly_names no
path_grouping_policy  multibus # default is multibus
default_selector  "queue-length 0"
}
blacklist_exceptions {
device {
vendor "^StoneSAN*"
product "^VIRTUAL-DISK*"
}
}
blacklist {
devnode "^(ram|raw|loop|fd|md|dm-|sr|scd|st)[0-9]*"
devnode "^hd[a-z]"
device {
vendor "*"
product "*"
}
}

 

 


4.1 原因和定位方法
36%为部署mon进程阶段。
目录权限问题
相关报错

 

 

查看/opt/sandstone目录下的文件权限,有部分文件属主为root:root。

 

4.2解决方法
下文件属主为sdsadmin:sdsadmin(除uninstall.dat文件外)
chown -R sdsadmin:sdsadmin /opt/sandstone

5 安装卡在45%
5.1 原因和定位方法
1.dmraid信息残留
lsblk时,查询到sdl的还有dmraid的残留信息。

 

 

 

2.内网不通后,内网也会出现断开。检查内部网络状态是否是running执行ifconfig查看网口状态;

 

 

 

     Ethtool 查看网口的状态,以下是正常的情况,如果显示为unkown则为异常状态。

 

 

 

3.不通主机之间内核版本不匹配
     目前sandstone ebs支持的内核版本如下图:

 

 

 

4.分区信息更新延迟

     查看/opt/sdsom/var/log/sdsom/agent.log-x再手动partprobe查询分区信息,能够查到相应的分区。

     请登陆卡在45%的节点,执行以下命令进行清除残留信息的操作2.内网不通

3.内核版本不匹配

,在查询分区信息前后等待几秒钟时间。

 

6 安装卡在72%
6.1 原因和定位方法

     1.一个节点内网在其他vlan导致内网不通
     Web安装界面,主节点安装卡在72%,备节点卡在45%

 

 

 

     查看日志/opt/sdsom/var/log/agent.log,有salt配置错误的日志,错误日志截图如下:

 

 

 

     通过执行ceph -s查看当前存储状态,有三个osd处于down状态,ping第三个节点的内网126.251.0.163也不通,salt-key也只接受到了2个节点的key。


 

2.Salt-master与salt-minion不通

     都是active+clean状态;

 

 

 

从正常节点执行以下命令确认是否是
. /opt/sdsom/etc/rc.d/init.d/functions_fixed
/opt/sdsom/venv/bin/salt "node0002" cmd.run "ls"

,备节点都在100%时,,存储是可以登陆的,登陆到存储的OM界面会出现备节点处于告警状态:

 

 

 

     在任意一个异常节点上查询其arp地址表,arp -a对比主节点的内部浮动IP地址,如下图内部浮动IP地址是126.251.7.74,mac地址是64:5b结尾,但是在arp -a中查询的126.251.7.74的IP地址是5b:74,导致salt-master与salt-minion通讯出现问题。

 

 


 

3.Salt-master同步salt-key至其他节点失败
     或sync Master failed相关日志。

 

 

 

执行/opt/sdsom/venv/bin/salt相关命令失败或超时
执行hostname –f长时间无输出

 

 

检查/etc/resolv.conf,有客户新增DNS
6.2 解决方法

     1.第三个节点内网在另一个vlan导致内网不通的口上则能通讯,问题解决。
     2.Salt-master与salt-minion不通,冲突的节点修改IP。


 

     第二种是发生了主切换,主节点曾经出现过网络或者掉电等问题,导致浮动IP切换到了备节点,mac地址更新为了备节点的MAC地址,此时只要在异常节点执行arp –d 浮动IP,然后再执行下salt命令看能否正常输出.
     cat /etc/default/sds_hostid
     #/opt/sdsom/venv/bin/salt "node0004" cmd.run "ls"
     3.Salt-master同步salt-key至其他节点失败
     127.0.0.1的主机名解析
     vi /etc/hosts

 

 

 

     Q:Linux虚拟机文件系统破坏,应如何解决?

     A:有些时候宿主机突然挂掉,存储出现瞬间异常,待存储恢复后会造成有些Linux操作系统的虚拟机启动失败(包括Linux版Wincenter),如下图所示。

 

 

 

     这应该是文件系统破坏的问题,一般情况下还可以在虚拟机中fsck修复文件系统,但是如果是Wincenter虚拟机出现了这个异常就麻烦了,访问不到超融合管理平台也无法调开虚拟机控制台窗口。

     解决办法:

     若可以ssh,可以用此方法先修复wincenter虚拟机。可以重装一个wincenter或用自己本机自带的wincenter进行纳管主机后,用java控制台调开虚拟机窗口处理(如果CPU超过10个此方法不行)。也可以用xencenter控制台打开窗口,再输入密码后,使用#fsck  -y后,重启才能恢复。

     Q:是否会出现盘符飘逸问题?

     A:分布式存储主机出现过拔盘、或者断网、或者盘槽被拔出来过可能会出现盘符漂移问题。造成的影响导致一个OSD无法启动,去到/sanstone/目录发现该osd-x用户权限变成了root了,里面也没有问题。目前解决办法是硬重启主机。

     更多关于云宏与超融合FAQ的相关内容,请关注我们

     官方网址:www.winhong.com

     官方网址:www.qiyeyun.co

 

  http://www.winhong.com/UploadFiles/Images/2018/5/2018052905555298.jpg

   (扫一扫关注)   

 

云宏微信二维码

 

 

 

其他新闻动态

版权所有©云宏信息科技股份有限公司   粤ICP备10104379号-1