运维联盟俱乐部

 找回密码
 立即注册
查看: 2196|回复: 0

exadata-管理-存储节点-救援过程

[复制链接]

该用户从未签到

发表于 2022-1-25 20:28:26 | 显示全部楼层 |阅读模式


1.关于救援过程
当系统磁盘出现故障、操作系统文件系统损坏或引导区域损坏时,需要执行救援程序。

如果只有一个系统盘出现故障,则使用 CellCLI 命令进行恢复。???这个如何进行?

如果您使用的是正常冗余,那么被救出的单元只有一个镜像副本。如果该单个镜像在救援过程中也出现故障,则数据可能会无法恢复。
Oracle 建议您对镜像副本上的数据进行完整备份,并立即使镜像副本单元脱机,以防止在尝试救援之前对其进行任何新的数据更改。
这确保了驻留在故障单元及其镜像副本上的所有数据在救援过程中不可访问。

Oracle 自动存储管理 (Oracle ASM) 磁盘修复计时器的默认修复时间为 3.6 小时。如果您知道您无法在该时间范围内执行救援过程,
那么您应该使用 Oracle ASM 重新平衡过程来重新平衡磁盘,直到您可以执行救援过程。

当使用高冗余磁盘组时,例如在 Oracle ASM 中有多个镜像副本用于故障单元的所有网格磁盘,则使故障单元脱机。在配置的 Oracle
ASM 超时后,Oracle ASM 会自动删除故障单元上的网格磁盘,并开始使用镜像副本重新平衡数据。默认超时为两小时。如果单元救援需要两个多小时,
那么您必须在 Oracle ASM 中的救援单元上重新创建网格磁盘。

注意:使用救援程序时要格外小心。 错误地使用该程序可能会导致数据丢失。

使用救援程序时,请务必注意以下事项:

救援过程可能会重写单元中的部分或全部磁盘。如果发生这种情况,那么您可能会丢失这些磁盘上的所有内容而无法恢复。
  使用此程序时要格外小心,并注意提示。理想情况下,您应该仅在 Oracle 支持服务的帮助下使用救援过程,并且当您决定可以承受部分或全部磁盘上的数据丢失时。
救援过程不会破坏数据盘的内容或系统盘上数据分区的内容,除非您在救援过程中明确选择这样做。
从 Oracle Exadata 系统软件版本 11.2 开始,救援过程将 Oracle Exadata 系统软件恢复到同一版本。这包括上次成功引导时单元上存在的任何修补程序。请注意以下有关使用救援过程的信息:
   单元配置信息(例如警报配置、SMTP 信息、管理员电子邮件地址等)不会恢复。
   恢复上次成功运行 /usr/local/bin/ipconf 实用程序时存在的网络配置。
   单元的 SSH 身份以及 root、celladmin 和 cellmonitor 用户已恢复。
   不会恢复 Oracle Exadata 存储服务器的 Integrated Lights Out Manager (ILOM) 配置。通常,即使在 Oracle Exadata 系统软件发生故障的情况下,ILOM 配置也不会损坏。
救援过程不会检查或重建系统磁盘上的数据磁盘或数据分区。如果网格磁盘上存在数据损坏,则不要使用救援过程。而是对 Oracle 数据库和 Oracle ASM 使用救援过程。
救援成功后,您必须重新配置单元,如果您选择保留数据,则导入单元磁盘。如果您选择不保留数据,那么您应该创建新的单元磁盘和网格磁盘。

2:执行救援过程
您可以使用救援过程来恢复 Oracle Exadata Storage Server 系统软件

1).使用串口连接到节点
2).启动系统并选择救援模式
--在 X7 和更新的服务器上,在初始引导序列期间,您将看到类似于以下引导选项的菜单:
      Exadata_DBM_0: CELL_BOOT_trying_HD0
      Exadata_DBM_0: CELL_BOOT_trying_CELLBOOT
      Exadata_DBM_1: CELL_BOOT_in_rescue_mode   <<<选这个回车

      Use the ^ and v keys to change the selection.
      Press 'e' to edit the selected item, or 'c' for a command prompt.

注意:如果没有输入,上面的菜单只会出现很短的时间。 因此,要保留菜单,请在出现菜单时立即按向上箭头或向下箭头键。

在菜单中,选择 Exadata_DBM_1:CELL_BOOT_in_rescue_mode,然后按 Enter。

--在 X6 和更早的服务器上,在初始引导序列期间,您将看到类似以下内容:
Press any key to enter the menu
Booting Exadata_DBM_0: CELL_USB_BOOT_trying_C0D0_as_HD1 in 4 seconds...
Booting Exadata_DBM_0: CELL_USB_BOOT_trying_C0D0_as_HD1 in 3 seconds...
Press any key to see the menu.
看到以上内容后,按任意键进入启动选项菜单

注意:对于旧版本的 Oracle Exadata 系统软件,您可能会看到“Oracle Exadata”初始屏幕。 如果出现启动画面,请按键盘上的任意键。 启动画面仅保持可见 5 秒钟。

在启动选项菜单中,选择 CELL_USB_BOOT_CELLBOOT_usb_in_rescue_mode,然后按 Enter。

3).出现提示时,选择重新安装 Oracle Exadata 系统软件的选项。 然后,确认您的选择

         Choose from the following by typing letter in '()':
           (e)nter interactive diagnostics shell.
             Use diagnostics shell password to login as root user
             (reboot or power cycle to exit the shell),
           (r)einstall or try to recover damaged system,
Select: r
[INFO     ] Reinstall or try to recover damaged system
Continue (y/n) [n]: y

4).如果出现提示,请指定救援根密码。
如果您没有所需的密码,请联系 Oracle 支持服务。---sos1Exadata 或者sos1exadata

5).出现提示时,指定是否要擦除数据分区和数据磁盘
指定 n 以保留存储服务器上的现有数据。
如果您指定 y,您将永久擦除存储服务器上的所有数据。 除非您确定它是安全的,否则不要指定此选项。
例如:
Do you want to erase data partitions and data disks (y/n)  [n]: n

6).如果出现提示,请指定 root 密码(默认的welcome1)
如果您没有所需的密码,请联系 Oracle 支持服务。
您现在应该会看到一条消息和 shell 提示,表明您

======================= NOTE =================================
=                                                            =
= –-- YOU ARE IN RESCUE MODE AFTER FIRST PHASE OF RESCUE –-- =
= Imaging pre-boot phase finished with success.              =
= Execute reboot to continue installation.                   =
=                                                            =
==============================================================
-sh-4.1#

7).使用救援提示,重新启动存储服务器以完成救援过程。
例如:
-sh-4.1# shutdown -r now

救援过程通常需要 45 到 90 分钟才能完成。 在救援过程中,存储服务器可能会重新启动几次。 屏幕消息指示救援过程何时完成。
例如:
Run validation checkconfigs - PASSED
2020-08-17 18:14:01 -0600 The first boot completed with SUCCESS

最后,还会显示登录提示。

3.救援后配置 Exadata 数据库云服务器存储服务器
成功救援后,您必须配置单元。 如果保留了数据分区,则在救援过程中会自动导入单元磁盘。

1)为救援过程中更换的任何磁盘重新创建单元磁盘和网格磁盘
a)使用以下命令仅在替换的磁盘上创建单元磁盘:
# cellcli -e create celldisk all harddisk

b)获取新创建cell disk 的名字

c)获取到grid disk 的映射
cellcli -e list griddisk attributes name,offset,size
从现有磁盘获取网格磁盘属性。 如果您更换了系统磁盘(X6 和更早的服务器上的插槽 0 或插槽 1),则需要从另一个系统磁盘检索值。
如果任何网格磁盘是 SPARSE 网格磁盘,则还要从另一个稀疏磁盘获取 virtualsize 属性。
例如,如果新的网格磁盘是 CD_01* 和 CD_08*,那么您将使用如下命令:
# cellcli -e list griddisk attributes name,cachingpolicy,offset,size,virtualsize |
egrep '_CD_00|_CD_07'
DATAC1_CD_00_dbm01celadm04    default    32M                  779G
DATAC1_CD_07_dbm01celadm04    default    32M                  779G
DBFSC1_CD_07_dbm01celadm04    default    1.0575714111328125T  33.6875G
RECOC1_CD_00_dbm01celadm04    none       887.046875G          195.90625G
RECOC1_CD_07_dbm01celadm04    none       887.046875G          195.90625G
SPARSEC1_CD_00_dbm01celadm04  default    779.046875G          108G         1.0546875T
SPARSEC1_CD_07_dbm01celadm04  default    779.046875G          108G         1.0546875T

d)使用检索到的属性在新单元磁盘上创建网格磁盘
例如,使用在上一步中为 CD00 检索到的属性,您将在 CD01 上创建网格磁盘,如下所示:
# cellcli -e create griddisk DATAC1_CD_01_dbm01celadm04 celldisk=CD_01_dbm01celadm04, size=779G, cachingpolicy=default

# cellcli -e create griddisk SPARSEC1_CD_01_dbm01celadm04 celldisk=CD_01_dbm01celadm04, size=108G, virtualsize=1.0546875T,cachingpolicy=default

# cellcli -e create griddisk RECOC1_CD_01_dbm01celadm04 celldisk=CD_01_dbm01celadm04 , size=195.90625G, cachingpolicy=none

使用在上一步中为 CD07 检索到的属性,您将在 CD08 上创建网格磁盘,如下所示:
# cellcli -e create griddisk DATAC1_CD_08_dbm01celadm04 celldisk=CD_08_dbm01celadm04, size=779G, cachingpolicy=default

# cellcli -e create griddisk SPARSEC1_CD_08_dbm01celadm04 celldisk=CD_08_dbm01celadm04, size=108G, virtualsize=1.0546875T,cachingpolicy=default

# cellcli -e create griddisk RECOC1_CD_08_dbm01celadm04 celldisk=CD_08_dbm01celadm04, size=195.90625G, cachingpolicy=none

# cellcli -e create griddisk DBFSC1_CD_08_dbm01celadm04 celldisk=CD_08_dbm01celadm04, size=33.6875G, cachingpolicy=default

2)检查网格磁盘的状态。
如果任何网格磁盘处于非活动状态,请将其状态更改为活动。
CellCLI> ALTER GRIDDISK ALL ACTIVE

3)登录 Oracle 自动存储管理 (Oracle ASM) 实例,并将每个磁盘组的磁盘设置为 ONLINE:
SQL> ALTER DISKGROUP disk_group_name ONLINE DISKS IN FAILGROUP cell_name WAIT;

笔记:
如果由于磁盘已被强制删除而导致命令失败,则需要将磁盘强制添加回 Oracle ASM 磁盘组。

在 ALTER DISKGROUP 语句完成之前,网格磁盘属性 asmmodestatus 和 asmdeactivationoutcome 不会正确报告。

4)执行 ALTER CELL 进行cell 的重配
CellCLI> ALTER CELL                                     -
           smtpServer='my_mail.example.com',            -
           smtpFromAddr='john.doe@example.com',         -
           smtpToAddr='jane.smith@example.com',         -
           notificationPolicy='critical,warning,clear', -
           notificationMethod='mail,snmp'

5)重建iorm
6)重建metric thresholds.

4.1/8配置的救援过程
在 Oracle Exadata System 软件版本 11.2.3.3 及更高版本中,单元救援后不需要额外的步骤

1)从其他节点拷贝/opt/oracle.SupportTools/resourcecontrol 到/opt/oracle.SupportTools/resourcecontrol 目录

2)设置权限
# chmod 740 /opt/oracle.SupportTools/resourcecontrol

3)校验配置
# /opt/oracle.SupprtTools/resourcecontrol -show

Validated hardware and OS. Proceed.
Number of cores active: 6
Number of harddisks active: 6
Number of flashdisks active: 8

For an Eighth Rack configuration, the output depends on the hardware model:

X3 storage server: 6 active CPU, 6 hard disks, and 8 flash disks should be enabled
X4 storage server: 6 active CPU cores, 6 hard disks, and 8 flash disks should be enabled
X5 HC storage server: 8 active CPU cores, 6 hard disks, and 2 flash disks should be enabled
X5 EF storage server: 8 active CPU cores and 4 flash disks should be enabled
X6 HC storage server: 10 active CPU cores, 6 hard disks, and 2 flash disks should be enabled
X6 EF storage server: 10 active CPU cores and 4 flash disks should be enabled
X7 HC storage server: 10 active CPU cores, 6 hard disks, and 2 flash disks should be enabled
X7 EF storage server: 10 active CPU cores and 4 flash disks should be enabled
X8 HC storage server: 16 active CPU cores, 6 hard disks, and 2 flash disks should be enabled
X8 EF storage server: 16 active CPU cores and 4 flash disks should be enabled

4)如果配置显示启用了所有内核和磁盘,则启用第八机架配置。
CellCLI> ALTER CELL eighthRack=true

5.重新创建损坏的 CELLBOOT USB 闪存驱动器
注意:要为运行 Oracle Exadata 存储服务器软件版本 12.1.2.1.0 或更高版本的计算机创建 USB 闪存驱动器,需要运行 Oracle Linux 6 的计算机。

1)root 登录到cell
2)仅在不包含 M.2 系统设备的 X6 和更早的服务器上
a.Attach a new USB flash drive.ast 1 GB, and up to 8 GB.
  This flash drive should have a capacity of at least 1 GB, and up to 8 GB.
b.Remove any other USB flash drives from the system.

3)执行下面命令
# cd /opt/oracle.SupportTools
# ./make_cellboot_usb -rebuild -verbose


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

运维联盟俱乐部 ( 冀ICP备19036648号 )

GMT+8, 2024-5-11 22:44 , Processed in 0.047131 second(s), 21 queries , Gzip On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表