exdata-管理-存储节点-硬盘日常管理-10个场景

liuxj · 发表于 2022-1-20 00:29:14

Oracle Exadata 机架中的每个 Oracle Exadata 存储服务器都有一个系统区域，这是 Oracle Exadata System Software 系统软件所在的位置。
在 Exadata Database Machine X7 和更高版本的系统中，两个内部 M.2 设备包含系统区域。在所有其他系统中，Oracle Exadata Storage Server
的前两个磁盘是系统磁盘，这些系统磁盘上的部分称为系统区域。

在 Exadata Database Machine X7 及更高版本的系统中，单元中的所有硬盘都是数据磁盘。在 Exadata Database Machine X7 之前的系统中，
系统磁盘的非系统区域（称为数据分区）用于正常数据存储。单元中的所有其他磁盘都是数据磁盘。

从 Oracle Exadata System Software 版本 11.2.3.2.0 开始，如果出现磁盘故障，Oracle Exadata System Software 会发送警报，
指出可以更换磁盘，并且在从该磁盘重新平衡所有数据后，转在具有预测性故障的硬盘的蓝色 OK to Remove LED 上。在早于 11.2.3.2.0 的
Oracle Exadata System 软件版本中，对于出现预测性故障的硬盘，琥珀色的 Fault-Service Required LED 指示灯亮起，但蓝色 LED 指示灯不亮。
在这些情况下，在进行磁盘更换之前，有必要手动检查是否所有数据都已从磁盘重新平衡。

从 Oracle Exadata System Software 版本 18.1.0.0.0 和 Exadata Database Machine X7 系统开始，有一个额外的白色
Do Not Service LED 指示冗余何时减少，以通知系统管理员或现场工程师不应关闭存储服务器的电源为服务。恢复冗余后，Oracle Exadata
系统软件会自动关闭 Do Not Service LED 以指示可以关闭单元以进行服务。

对于发生故障的硬盘，驱动器的蓝色 OK to Remove LED 和琥珀色的 Fault-Service Required LED 均亮起，表示可以继续进行磁盘更换。
所有版本中的行为都是相同的。驱动器 LED 灯在 Oracle Exadata System Software 11.2.3.2.0 及更高版本中是常亮的；驱动器 LED 在早期版本中闪烁。

注意：Oracle Exadata 机架在更换 Oracle Exadata 存储服务器物理磁盘时在线且可用。

下面是cell 节点硬盘日常管理的10个部分

1.硬盘状态监控
您可以通过使用 CellCLI LIST PHYSICALDISK 命令检查硬盘的属性来监控硬盘的状态。

例如，硬盘状态等于故障（故障硬盘的状态在早期版本中很严重），或警告 - 预测性故障可能有问题，需要更换。
磁盘固件维护错误计数器，并在超过内部阈值时将驱动器标记为预测故障。驱动器而不是单元软件决定是否需要更换。

使用 LIST PHSYICALDISK 命令检查硬盘的状态
<
CellCLI> LIST PHYSICALDISK WHERE disktype=harddisk AND status!=normal DETAIL
      name:                         8:4
      deviceId:             12
         deviceName:                /dev/sde
         diskType:                   HardDisk
      enclosureDeviceId:    8
      errOtherCount:       0
      luns:                0_4
         makeModel:                   "HGST H7280A520SUN8.0T"
      physicalFirmware:       PD51
      physicalInsertTime:    2016-11-30T21:24:45-08:00
      physicalInterface:    sas
      physicalSerial:          PA9TVR
      physicalSize:             7.153663907200098T
      slotNumber:                4
      status:                      failed
>

当发生磁盘 I/O 错误时，Oracle ASM 对由于介质错误导致的读取错误执行坏区修复。磁盘将保持在线，并且不会发送任何警报。
当 Oracle ASM 在物理寻址的元数据块上出现读取错误时，它不会对这些块进行镜像，并使磁盘脱机。然后 Oracle ASM 使用 FORCE 选项删除磁盘。

Oracle Exadata Storage Server 硬盘状态如下：

Oracle Exadata System Software release 11.2.3.3 and later:
normal
normal - dropped for replacement
normal - confinedOnline
normal - confinedOnline - dropped for replacement
not present
failed
failed - dropped for replacement
failed - rejected due to incorrect disk model
failed - rejected due to incorrect disk model - dropped for replacement
failed - rejected due to wrong slot
failed - rejected due to wrong slot - dropped for replacement
warning - confinedOnline
warning - confinedOnline - dropped for replacement
warning - peer failure
warning - poor performance
warning - poor performance - dropped for replacement
warning - poor performance, write-through caching
warning - predictive failure, poor performance
warning - predictive failure, poor performance - dropped for replacement
warning - predictive failure, write-through caching
warning - predictive failure
warning - predictive failure - dropped for replacement
warning - predictive failure, poor performance, write-through caching
warning - write-through caching

Oracle Exadata System Software release 11.2.3.2:
normal
normal - confinedOnline
not present
failed
failed - rejected due to incorrect disk model
failed - rejected due to wrong slot
warning - confinedOnline
warning - peer failure
warning - poor performance
warning - poor performance, write-through caching
warning - predictive failure, poor performance
warning - predictive failure, write-through caching
warning - predictive failure
warning - predictive failure, poor performance, write-through caching
warning - write-through caching

Oracle Exadata System Software release 11.2.3.1.1 and earlier:
normal
critical
poor performance
predictive failure
not present

2.监控硬盘控制器的Write-through Caching Mode
每个 Oracle Exadata 存储服务器上的硬盘控制器会定期对控制器电池进行放电和充电。在操作过程中，写缓存策略从write-back 缓存变为Write-through缓存。

Write-through缓存模式比write-back 缓存模式慢。但是，如果 Oracle Exadata 存储服务器断电或出现故障，write-back 缓存模式存在数据丢失的风险。
对于 11.2.1.3 之前的 Oracle Exadata System Software 版本，该操作每月进行一次。
对于 Oracle Exadata System 软件版本 11.2.1.3.0 及更高版本，该操作每三个月进行一次，例如，1 月、4 月、7 月和 10 月的第 17 天的 01:00。

要更改学习周期的开始时间，请使用类似于以下的命令：
CellCLI> ALTER CELL bbuLearnCycleTime="2013-01-22T02:00:00-08:00"

循环完成后，时间恢复为默认的学习循环时间。

要查看下一个学习周期的时间，请使用以下命令：
CellCLI> LIST CELL ATTRIBUTES bbuLearnCycleTime

Oracle Exadata 存储服务器生成有关单元上逻辑驱动器缓存模式状态的信息警报，类似于以下内容：
<HDD disk controller battery on disk controller at adapter 0 is going into a learn
cycle. This is a normal maintenance activity that occurs quarterly and runs for
approximately 1 to 12 hours. The disk controller cache might go into WriteThrough
caching mode during the learn cycle. Disk write throughput might be temporarily
lower during this time. The message is informational only, no action is required.
>
要查看电池的状态，请使用类似于以下示例的命令：
注意：如果您运行的是 Oracle Exadata System Software 19.1.0 或更高版本，
请在以下命令中将 /opt/MegaRAID/storcli/storcli64 替换为 /opt/MegaRAID/MegaCli/MegaCli64：

<
# /opt/MegaRAID/MegaCli/MegaCli64 -AdpBbuCmd -GetBbuStatus -a0
BBU status for Adapter: 0

BatteryType: iBBU08
Voltage: 3721 mV
Current: 541 mA
Temperature: 43 C

BBU Firmware Status:
Charging Status : Charging
Voltage : OK
Temperature : OK
Learn Cycle Requested : No
Learn Cycle Active : No
Learn Cycle Status : OK
Learn Cycle Timeout : No
I2c Errors Detected : No
Battery Pack Missing : No
Battery Replacement required : No
Remaining Capacity Low : Yes
Periodic Learn Required : No
Transparent Learn : No

Battery state:

GasGuageStatus:
Fully Discharged : No
Fully Charged : No
Discharging : No
Initialized : No
Remaining Time Alarm : Yes
Remaining Capacity Alarm: No
Discharge Terminated : No
Over Temperature : No
Charging Terminated : No
Over Charged : No

Relative State of Charge: 7 %
Charger System State: 1
Charger System Ctrl: 0
Charging current: 541 mA
Absolute state of charge: 0 %
Max Error: 0 %

Exit Code: 0x00
>

3.由于磁盘失败而进行的磁盘替换
硬盘中断会导致性能和数据冗余降低。因此，应尽快更换新磁盘。当磁盘发生故障时，与硬盘上的网格磁盘关联的 Oracle ASM 磁盘会使用 FORCE 选项自动删除，
然后 Oracle ASM 重新平衡以恢复数据冗余。

磁盘发生故障时会生成 Exadata 警报。该警报包括更换磁盘的具体说明。如果您已将系统配置为警报通知，则警报会通过电子邮件发送到指定地址。

更换硬盘后，将在新硬盘上重新创建该插槽中先前磁盘上存在的网格磁盘和单元磁盘。如果这些网格磁盘是 Oracle ASM 组的一部分，则将它们添加回磁盘组，
并根据磁盘组冗余和 ASM_POWER_LIMIT 参数在它们上重新平衡数据。

注意：对于运行 Oracle Exadata System Software 版本 12.1.2.0 和 Oracle Database 版本 12.1.0.2 和 BP4 的存储服务器，Oracle ASM
会发送一封有关重新平衡操作状态的电子邮件。在早期版本中，管理员必须检查操作的状态。
对于早期版本，请按照检查重新平衡操作的状态中所述检查重新平衡操作状态。

过程如下：

1）确认故障盘信息
CellCLI> LIST PHYSICALDISK WHERE diskType=HardDisk AND status=failed DETAIL
示例如下：slotNumber 决定了磁盘的位置，status 显示了磁盘的状态
<
CellCLI> LIST PHYSICALDISK WHERE diskType=HardDisk AND status=failed DETAIL

      name:                28:5
      deviceId:             21
      diskType:             HardDisk
      enclosureDeviceId:    28
      errMediaCount:       0
      errOtherCount:       0
      foreignState:          false
      luns:                0_5
      makeModel:             "SEAGATE ST360057SSUN600G"
      physicalFirmware:    0705
      physicalInterface:    sas
      physicalSerial:       A01BC2
      physicalSize:          558.9109999993816G
      slotNumber:          5
      status:                failed
>

2）在移除磁盘之前，确保磁盘上的蓝色 OK to Remove LED 亮起
3）更换 Oracle Exadata 存储服务器上的硬盘并等待三分钟。硬盘可热插拔，通电即可更换。
4）确认磁盘被联机（online）
更换硬盘时，必须先由 RAID 控制器确认磁盘，然后才能使用它。这不需要很长时间。

使用类似于以下内容的 LIST PHYSICALDISK 命令确保状态为 NORMAL。
CellCLI> LIST PHYSICALDISK WHERE name=28:5 ATTRIBUTES status

5）执行命令ALTER CELL VALIDATE CONFIGURATION确认微码状态正确
在极少数情况下，自动固件更新可能不起作用，并且不会重建 LUN。这可以通过检查 ms-odl.trc 文件来确认。

4.由于磁盘问题（还没完全坏掉）而进行的磁盘更换
您可能需要更换硬盘，因为该磁盘处于警告 - 预测性故障状态。

预测故障状态表明硬盘将很快发生故障，应尽早更换。与硬盘驱动器上的网格磁盘关联的 Oracle ASM 磁盘会自动删除，
并且 Oracle ASM 重新平衡会将数据从预测性故障磁盘重新定位到其他磁盘。

如果在硬盘死机之前没有完成删除，请参阅更换因磁盘故障而导致的硬盘。

移除磁盘时会发送警报。更换硬盘后，插槽中之前磁盘上存在的网格磁盘和单元磁盘将在新硬盘上重新创建。如果这些网格磁盘是 Oracle ASM 磁盘组的一部分，
则会将它们添加回磁盘组，并根据磁盘组冗余和 ASM_POWER_LIMIT 参数重新平衡数据。

注意：在运行 Oracle Exadata 系统软件版本 12.1.2.0 和带有 BP4 的 Oracle 数据库版本 12.1.0.2 的 Oracle Exadata 存储服务器上，
Oracle ASM 会发送一封有关重新平衡操作状态的电子邮件。在早期版本中，管理员必须检查操作的状态。
对于早期版本，请按照检查重新平衡操作的状态中所述检查重新平衡操作状态。

更换过程如下：
1）确认哪块磁盘有问题
CellCLI> LIST PHYSICALDISK WHERE diskType=HardDisk AND status= "warning - predictive failure" DETAIL

示例如下：slotNumber 决定了磁盘的位置，status 显示了磁盘的状态,预期要失败
<
CellCLI> LIST PHYSICALDISK WHERE diskType=HardDisk AND status= \
      "warning - predictive failure" DETAIL
      name:                28:3
      deviceId:             19
      diskType:             HardDisk
      enclosureDeviceId:    28
      errMediaCount:       0
      errOtherCount:       0
      foreignState:          false
      luns:                0_3
      makeModel:             "SEAGATE ST360057SSUN600G"
      physicalFirmware:    0705
      physicalInterface:    sas
      physicalSerial:       E07L8E
      physicalSize:          558.9109999993816G
      slotNumber:          3
      status:                warning - predictive failure
>

2）在移除磁盘之前，确保磁盘上的蓝色 OK to Remove LED 亮起。
3）等到与硬盘上的网格磁盘关联的 Oracle ASM 磁盘已成功删除。要确定网格磁盘是否已被删除，请查询 Oracle ASM 实例上的 V$ASM_DISK_STAT 视图。
警告：在 Oracle Exadata Database Machine X7 之前的所有系统上，前两个插槽中的磁盘是存储操作系统和 Oracle Exadata 系统软件的系统磁盘。一个系统盘必须处于工作状态才能跟上服务器。
等到 ALTER CELL VALIDATE CONFIGURATION 显示没有 mdadm 错误，这表明系统磁盘重新同步已经完成，然后再更换另一个系统磁盘。

4）更换 Oracle Exadata 存储服务器上的硬盘并等待三分钟。硬盘可热插拔，通电即可更换。
5）确认磁盘已联机（online）
更换硬盘时，必须先由 RAID 控制器确认磁盘，然后才能使用它。这不需要很长时间。使用 LIST PHYSICALDISK 命令确保状态为 NORMAL。

CellCLI> LIST PHYSICALDISK WHERE name=28:3 ATTRIBUTES status

6）使用命令：ALTER CELL VALIDATE CONFIGURATION 校验微码的正确性。

5.由于性能问题而进行的磁盘更换

单个坏硬盘会降低其他好磁盘的性能。最好从系统中删除坏磁盘而不是让它保留。

从 Oracle Exadata System 软件版本 11.2.3.2 开始，性能不佳的磁盘会被自动识别并从活动配置中删除。 Oracle Exadata
数据库云服务器然后运行一组性能测试。当 CELLSRV 检测到磁盘性能不佳时：
单元磁盘状态变为normal - confinedOnline
硬盘状态变为warning - confinedOnline

以下情况会触发磁盘限制：

磁盘停止响应。存储警报日志中的原因代码是 CD_PERF_HANG。
慢速单元磁盘如下：
  高服务时间阈值（原因代码 CD_PERF_SLOW_ABS）
  较高的相对服务时间阈值（原因代码 CD_PERF_SLOW_RLTV）
高读取或写入延迟，例如：
  写入延迟高（原因代码 CD_PERF_SLOW_LAT_WT）
  读取延迟高（原因代码 CD_PERF_SLOW_LAT_RD）
  读取和写入的高延迟（原因代码 CD_PERF_SLOW_LAT_RW）
  频繁发生的单个 I/O 的绝对延迟非常高（原因代码 CD_PERF_SLOW_LAT_ERR）
诸如 I/O 错误之类的错误（原因代码 CD_PERF_IOERR）

如果磁盘问题是暂时的并且通过了测试，那么它会被带回到配置中。如果磁盘未通过测试，则将其标记为性能不佳，Oracle 自动服务请求 (ASR)
会提交更换磁盘的服务请求。如果可能，Oracle ASM 会使网格磁盘脱机以进行测试。如果 Oracle ASM 无法使磁盘脱机，
则单元磁盘状态将保持normal - confinedOnline ，直到可以安全地使磁盘脱机。

磁盘状态更改与单元警报历史记录中的以下条目相关联：
<
MESSAGE ID date_time info "Hard disk entered confinement status. The LUN
n_m changed status to warning - confinedOnline. CellDisk changed status to normal
- confinedOnline. Status: WARNING - CONFINEDONLINE  Manufacturer: name  Model
Number: model  Size: size  Serial Number: serial_number  Firmware: fw_release
Slot Number: m  Cell Disk: cell_disk_name  Grid Disk: grid disk 1, grid disk 2
... Reason for confinement: threshold for service time exceeded"

>
下面信息将被记录到cell节点的alert中
<CDHS: Mark cd health state change cell_disk_name  with newState HEALTH_BAD_
ONLINE pending HEALTH_BAD_ONLINE ongoing INVALID cur HEALTH_GOOD
Celldisk entering CONFINE ACTIVE state with cause CD_PERF_SLOW_ABS activeForced: 0
inactiveForced: 0 trigger HistoryFail: 0, forceTestOutcome: 0 testFail: 0
global conf related state: numHDsConf: 1 numFDsConf: 0 numHDsHung: 0 numFDsHung: 0
...
>

注意：在 Oracle Exadata System Software 版本 11.2.3.2 之前的版本中，使用 CALIBRATE 命令来识别损坏的硬盘，
并查找每个硬盘的吞吐量和 IOPS 非常低。

以下过程描述了在识别出坏磁盘后如何移除硬盘：
1）使用类似如下的命令点亮硬盘服务 LED 以识别要更换的驱动器，其中 disk_name 是要更换的硬盘的名称，例如 20:2：
cellcli -e 'alter physicaldisk disk_name serviceled on'

2)找出坏盘的所有grid disk
<[root@exa05celadm03 ~]# cellcli -e "list physicaldisk 20:11 attributes name, id"
      20:11 RD58EA
[root@exa05celadm03 ~]# cellcli -e "list celldisk where physicalDisk='RD58EA'"
      CD_11_exa05celadm03 normal
[root@exa05celadm03 ~]# cellcli -e "list griddisk where cellDisk='CD_11_exa05celadm03'"
      DATA_CD_11_exa05celadm03 active
      DBFS_CD_11_exa05celadm03 active
      RECO_CD_11_exa05celadm03 active
      TPCH_CD_11_exa05celadm03 active
>

3)指示 Oracle ASM 立即停止使用坏磁盘
SQL> ALTER DISKGROUP diskgroup_name DROP DISK asm_disk_name;

4)在移除磁盘之前，确保磁盘上的蓝色 OK to Remove LED 亮起。
5)通过查询 V$ASM_DISK_STAT 视图，确保与坏磁盘上的网格磁盘关联的 Oracle ASM 磁盘已成功删除。
6)删除性能不佳的磁盘。移除磁盘时会发送警报。
7)当有新磁盘可用时，在系统中安装新磁盘。单元磁盘和网格磁盘会自动在新硬盘上创建。
注意：更换硬盘时，必须先得到 RAID 控制器的确认后才能使用。确认时间不长，但使用 LIST PHYSICALDISK 命令确保状态为 NORMAL。

6.主动更换硬盘
当硬盘出现故障或被标记为有问题的磁盘时，Exadata 存储软件具有一套完整的硬盘维护自动化操作。但是在某些情况下，必须主动从配置中删除硬盘。

在 CellCLI ALTER PHYSICALDISK 命令中，DROP FOR REPLACEMENT 选项检查是否可以安全地移除正常工作的硬盘而没有数据丢失的风险。
但是，执行该命令后，硬盘上的griddisk在存储单元上被去激活，并在Oracle ASM磁盘组中被设置为离线。

要降低磁盘组没有完全冗余的风险并主动更换硬盘，请执行以下过程：
1）识别与硬盘关联的 LUN、单元磁盘和网格磁盘。
使用类似于以下的命令，其中 X:Y 标识您要更换的驱动器的硬盘名称。

# cellcli –e "list diskmap" | grep 'X:Y'
输出应类似于以下内容：
20:5          KEBTDJ       5                      normal  559G
CD_05_exaceladm01 /dev/sdf
"DATAC1_CD_05_exaceladm01, DBFS_DG_CD_05_exaceladm01,
   RECOC1_CD_05_exaceladm01"

要获取 LUN，请发出类似于以下的命令：
CellCLI> list lun where deviceName='/dev/sdf/'
      0_5    0_5    normal

2）删除磁盘
如果您至少使用 Oracle Exadata System Software 21.2.0 版，请使用以下命令删除物理磁盘，同时保持冗余：
CellCLI> alter physicaldisk X:Y drop for replacement maintain redundancy
等待操作完成后再继续。

如果您使用的是 21.2.0 之前的 Oracle Exadata System Software 版本，请执行以下操作：
a)从受影响的normal dg中删除griddisK
SQL> ALTER DISKGROUP diskgroup_name DROP DISK asm_disk_name;

b)等待asm的rebalance 完成

c) 删除物理磁盘
使用类似于以下的命令，其中 X:Y 标识您要更换的驱动器的硬盘名称。
CellCLI> alter physicaldisk X:Y drop for replacement

3）在移除磁盘之前，确保磁盘上的蓝色 OK to Remove LED 亮起。
4）替换新盘
5）验证与硬盘关联的 LUN、celldisk 和griddisk是否已创建。
CellCLI> list lun lun_name
CellCLI> list celldisk where lun=lun_name
CellCLI> list griddisk where celldisk=celldisk_name

6)校验griddisk 已加回dg
SQL> SELECT path,header_status FROM v$asm_disk WHERE group_number=0;
应该返回0行

以下查询显示所有故障组是否具有相同数量的磁盘：
SQL> SELECT group_number, failgroup, mode_status, count(*) FROM v$asm_disk
   GROUP BY group_number, failgroup, mode_status;

7.将所有驱动器移动到另一个 Exadata 存储服务器
可能需要将所有驱动器从一台 Exadata 存储服务器移动到另一台 Exadata 存储服务器。

当出现机箱级组件故障（例如主板或 ILOM 故障）或对硬件问题进行故障排除时，可能会出现这种需求。

1）备份下列文件或者目录
/etc/hosts
/etc/modprobe.conf
/etc/sysconfig/network
/etc/sysconfig/network-scripts

2）inactivate所有griddisk 并关闭server
3）将 hard disks, flash disks, disk controller and USB flash drive  移动到新的服务器上
警告：
确保前两个磁盘（即系统盘）位于相同的前两个插槽中。否则会导致 Exadata 存储服务器无法正常运行。

确保闪存卡安装在与原始 Exadata 存储服务器相同的 PCIe 插槽中。

4）启动新server
5）登录到控制台（通过kvm 或者其他方式）
6）检查以下目录中的文件。如果它们已损坏，则从备份中恢复它们
  /etc/hosts
  /etc/modprobe.conf
  /etc/sysconfig/network
  /etc/sysconfig/network-scripts

7）使用ifconfig命令识别接口 eth0, eth1, eth2, and eth3 的新mac地址
示例如下：
<# ifconfig eth0
eth0    Link encap:Ethernet  HWaddr 00:14:4F:CA:D9:AE
      inet addr:10.204.74.184  Bcast:10.204.75.255  Mask:255.255.252.0
      inet6 addr: fe80::214:4fff:feca:d9ae/64 Scope:Link
      UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
      RX packets:141455 errors:0 dropped:0 overruns:0 frame:0
      TX packets:6340 errors:0 dropped:0 overruns:0 carrier:0
      collisions:0 txqueuelen:1000
      RX bytes:9578692 (9.1 MiB)  TX bytes:1042156 (1017.7 KiB)
      Memory:f8c60000-f8c80000
>
8)编辑/etc/sysconfig/network-scripts目录下网络接口的配置文件，修改对应的mac地址
如下示例：
<
#### DO NOT REMOVE THESE LINES ####
#### %GENERATED BY CELL% ####
DEVICE=eth0
BOOTPROTO=static
ONBOOT=yes
IPADDR=10.204.74.184
NETMASK=255.255.252.0
NETWORK=10.204.72.0
BROADCAST=10.204.75.255
GATEWAY=10.204.72.1
HOTPLUG=no
IPV6INIT=no
HWADDR=00:14:4F:CA:D9:AE <<<<

>

9)重启server
10）激活griddis
CellCLI> ALTER GRIDDISK ALL ACTIVE

如果单元上的磁盘上的 Oracle ASM 磁盘没有被删除，那么它们会自动更改为 ONLINE，并开始使用。

11）使用下面命令进行校验
CellCLI> ALTER CELL VALIDATE CONFIGURATION

12）为asr 激活ILOM

8-磁盘重利用(Repurposing)

您可能希望删除磁盘上的所有数据，然后将该磁盘用于其他目的。

在重新调整硬盘用途之前，请确保您拥有磁盘上数据的副本。

如果对系统磁盘（磁盘 0 和磁盘 1）使用此过程，则只会擦除数据分区，不会擦除系统分区。

1)使用 CellCLI LIST 命令显示 Exadata 存储服务器对象。您必须识别硬盘驱动器上的网格磁盘和单元磁盘。例如：
CellCLI> LIST PHYSICALDISK
      20:0 D174LX normal
      20:1 D149R0 normal
      ...

2)执行下面的命令识别lun 上的cell disks and grid disks：
CellCLI> LIST LUN WHERE physicalDrives='20:0' DETAIL
  name:             0_0
  deviceName:       /dev/sda
  diskType:       HardDisk
  id:             0_0
  isSystemLun:    TRUE
  lunSize:          557.861328125G
  lunUID:          0_0
  physicalDrives: 20:0
  raidLevel:       0
  lunWriteCacheMode: "WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU"
  status:          normal

或#cellcli -e "list diskmap" | grep 20:0

20:0          K68DWJ       0                      normal  559G
CD_00_burd01celadm01 /dev/sda3
"DATAC1_CD_00_burd01celadm01, RECOC1_CD_00_burd01celadm01"

3）asm 环境下删除dg里对应的磁盘
SQL> ALTER DISKGROUP diskgroup_name DROP DISK asm_disk_name;

4）在存储server上删除lun所对应的cell disk 和grid disk
CellCLI> DROP CELLDISK celldisk_on_this_lun FORCE

注意：要覆盖单元磁盘上的所有数据，请在 DROP CELLDISK 命令中使用 ERASE 选项。以下是该命令的示例：
CellCLI> DROP CELLDISK CD_03_cell01 ERASE=1pass NOWAIT

CellDisk CD_03_cell01 erase is in progress

5)执行下面的命令进行热删除
CellCli> ALTER PHYSICALDISK 20:0 DROP FOR REPLACEMENT

6）在移除磁盘之前，确保磁盘上的蓝色 OK to Remove LED 亮起
告警：确保在卸下驱动器之前磁盘蓝色 LED 已打开。如果磁盘蓝色 LED 不亮，请勿卸下驱动器，否则可能会导致系统崩溃。

7）移除要重新利用的磁盘，然后插入新磁盘。

8）等待新盘作为lun被加入
CellCLI> LIST LUN

cell disk和grid disk会自动在新硬盘上创建，并将网格磁盘添加到 Oracle ASM 组中。

9.卸下和更换同一个硬盘
如果您不小心移除了错误的硬盘会怎样？

如果您无意中移除了错误的硬盘，则将磁盘放回原处。它将自动添加回 Oracle ASM 磁盘组，并重新同步其数据。

注意：由于磁盘故障或磁盘问题更换磁盘时，磁盘上的 LED 会亮起以进行识别。

10.重新启用被拒绝的硬盘

如果物理磁盘因为插入错误的插槽而被拒绝，您可以重新启用该磁盘。
运行以下命令：
注意：以下命令将删除物理磁盘上的所有数据。
CellCLI> ALTER PHYSICALDISK hard_disk_name reenable force
示例如下：
Physical disk 20:0 was reenabled.

		自动登录	找回密码
密码			立即注册