本文共 1432 字,大约阅读时间需要 4 分钟。
在ceph集群里,磁盘出故障是不可避免,所以替换故障磁盘成为ceph日常运维不断重复的任务。本课程演示如何替换一个故障盘。
#MegaCli -PDList -aALL|grep "Media Error" Enclosure Device ID: 0 Slot Number: 3 Enclosure position: 0 Device Id: 2 Sequence Number: 2 Media Error Count: 227 <- 物理故障 Other Error Count: 2 Enclosure Device ID: 0
#lsblk -i|grep /dev/sdc/dev/sdc1 on /var/lib/ceph/osd/ceph-1
systemctl status ceph-osd@1.service
虽然osd.1的服务已停止,然而他任然被标记为IN(集群中)状态。只要他的状态还是IN,Ceph集群就不会为他触发数据恢复。默认情况下,ceph集群需要5分钟来将一个DOWN状态的磁盘标记为OUT状态,然后开始数据恢复。我们可以手工将故障OSD标记为OUT。一旦该OSD被标记为OUT,ceph集群会为该OSD上的PG启动恢复过程。
#ceph osd out osd.1#ceph status
#ceph osd crush rm osd.1
#ceph auth del osd.1
#ceph osd rm osd.1拔掉故障盘,插入新磁盘......................
[root@hh-yun-ceph-cinder016-128056 ~]# MegaCli -CfgLdAdd -r0 [0:3] WB Direct -a0 Adapter 0: Created VD 2 Adapter 0: Configured the Adapter!! Exit Code: 0x00
#ceph-deploy disk list ceph-node1#ceph-deploy disk zap ceph-node2:sdc#ceph-deploy --overwrite-conf osd create ceph-node1:sdc一旦OSD加入到集群,ceph会执行回填backfilling操作,他会将PG从第二OSD上移到这个新的OSD上。
https://www.ustack.com/blog/ceph_infra/
转载地址:http://lnsql.baihongyu.com/