当前位置:首页 >> IT/计算机 >>

IBM


IBM DS4000/DS5000 快速维护手册
V1.9a

第 1 页 共 62 页





目 录...................................................................................................................................2 版本历史:...............................................................................................................................3 IBM官方服务文档内容介绍: ...............................................................................................4 经验表明,造成客户的存储数据访问中断的外部原因主要有以下几种: .......................5 一、DS4000/DS5000 系列的命名和介绍(包括如何区分DS4300 Base型号和Turbo型号) ..................................................................................................................................................6 二、如何观察DS4000/DS5000 各个部件的指示灯?...........................................................7 三、DS4000/DS5000 的开关机步骤(非常重要)...............................................................8 四、如何在Storage Manager客户端管理软件里面添加DS4000/DS5000 子系统................9 五、如何使用Storage Manager客户端管理软件查看DS4000/DS5000 的状态 .................11 六、微码在 06.xx.xx.xx和 07.xx.xx.xx的故障数据收集 ....................................................16 七、微码在 05.xx.xx.xx或以下的DS4000/DS5000 的故障数据收集 ..............................19 八、DS4000/DS5000 系列的微码升级.................................................................................23 九、使用Controller Firmware Upgrade Tool对DS4000/DS5000 进行健康检查和微码从 06.xx到 07.xx的升级 ..............................................................................................................33 十、DS4000/DS5000 电池寿命和更换策略的重大变更 .....................................................35 十一、DS4000/DS5000 更换电池的注意事项.....................................................................37 十二、如何通过SM客户端软件的Script Editor脚本编辑器运行脚本 ...............................38 十三、DS4000/DS5000 在AIX上使用MPIO的一些注意事项...........................................40 十四、常见故障处理和注意事项 .........................................................................................43 1.造成客户的存储数据访问中断的主要外部原因 ...................................................................43 2.在所有维护之前,都必须收集ASD并提前检查所有潜在的隐患。 ...................................43 3.逻辑盘不在最优路径“Logical Drive Not On Preferred Path” ................................................48 4.Storage Manager客户端软件不能连接和访问DS4000/DS5000 的控制器 ...........................51 5.在AIX主机环境下,几种典型FCP_ARRAY_ERR故障的处理 ...........................................52 6.注意DS4000/DS5000 的扩展柜EXP的ID设置(同一个冗余环路内部的ID个位数字必须唯 一) ................................................................................................................................................54 7.拔除DS4000/DS5000 系统中所有未使用(没有光纤连接)的光电转换模块SFP ............56 8.特别注意:不规范的实施DS4000/DS5000 系统EXP扩展柜和物理硬盘的升级和迁移,可 能会造成客户数据丢失!!!! .................................................................................................56 9.注意定期保存DS4000/DS5000 系统的All Support Data(ASD) .......................................57 10.如何寻找DS4000/DS5000 的Recovery Profile .....................................................................57 11.重要说明:绝对不能对处于“Degraded”状态的Array的故障硬盘使用Revive操作! ........58 12.Recovery Guru 报“Individual Drive - Degraded Path”但硬盘位置是“Unknown” ..............58 13.如何处理“Diagnostic Data Available”(DDC)问题 ...........................................................59 14.绝对不能在生产系统使用SM客户端管理软件的“Reset Configuration”功能....................59 15.如何找到在DS4000 里面定义的LUN和AIX上hdisk的对应关系 .......................................60 16.DS5000 维护注意事项...........................................................................................................62

第 2 页 共 62 页

版本历史: 1.1a 1.2a 1.3a
增加了对性能监控问题的解释 增加了 DS4000 的扩展柜 EXP 的 ID 设置的重要说明 增加了拔出未使用的光电转换模块 GBIC/SFP 的建议 增加了在微码 05.XX 上通过 SM 图形界面收集控制器串口日志的 方法; 增加了实施 EXP 扩展柜或硬盘升级及迁移的警告信息;一定要 按照 IBM 官方文档的规范进行。 增加了定期保存 Profile 和 All Support Data 的建议;

2006/11/28 2007/04/15 2007/05/16

1.4a

详细说明了每一本 DS4000 官方服务文档的主要内容 修改了控制器微码在 06.XX 版本下的微码升级顺序的建议 增加了安装实施 DS4000 的相关重要注意事项, 一定要按照 IBM 官方文档的规范进行。

2007/08/28

1.5a

增加了微码隐患及注意事项汇总 增加了绝对不能在生产系统使用 SM 客户端管理软件的“Reset Configuration”功能的警告 更新了 DS4000 官方服务文档的版本

2008/03/01

1.9a

更新了 DS4000 官方服务文档的版本 增加了最新版 SM 软件不能管理 05.30 微码的提示 强调了开关机顺序的重要性, 强调出现故障后不建议再次尝试开 关机来解决。增加了对速率开关的详细检查 强调了在现场没有 Switch/Hub 的情况下应该每个控制器各收集 一份 ASD。增加了清除链路噪音累积数值的三条脚本 增加了如何通过 Firmware Upgrade Tool 进行健康检查以及微码 06.xx->07.xx 的升级,以及强调微码不能回退 “逻辑盘不在最优路径”里面增加了“DS3000/4000/5000 在 Linux 主机环境中 Lun 在两个控制器之间来回切换的故障分析” 增加了 DS4000 电池故障与写缓存相互关系,以及 DS4000 电池 寿命和更换策略的重大变更。 增加了电池更换的注意事项,强调了 DS4300 在线更换电池前, 一定要先检查硬盘微码 JFQ3/JFQ4 的隐患 增加了 DS4000/DS5000 在 AIX 上使用 MPIO 的一些注意事项 增加了在所有维护之前,都必须收集 ASD 并提前检查所有潜在 的隐患,强调了 ASD 对于客户数据恢复的关键作用。 增加了典型 FCP_ARRAY_ERR 的分析和处理方法 增加了如何找到在 DS4000 里面定义的 LUN 和 AIX 上 hdisk 的 对应关系。增加了如何寻找 Recovery Profile 增加了“Diagnostic Data Capture”(DDC)故障的处理办法 增加了不能对处于“Degraded”状态的 Array 进行 Revive 操作的 警告。增加了 DS5000/DS5020 的维护注意事项 增加了如何通过 SM 客户端软件的 Script Editor 脚本编辑器运行 脚本的方法;增加了常见的更换硬盘后报 "Individual Drive Degraded Path"的处理办法; 增加了造成客户的存储数据访问中断的外部原因 第 3 页 共 62 页

2010/08/06

说明:本文档仅供参考,并不能取代 IBM 的以下官方文档。 IBM官方服务文档内容介绍: 1. 以下是入门红皮书 Redbook,全面的介绍了硬件结构,如何安装配置、管理和维护 IBM System Storage DS4000 and Storage Manager V10.30 (SG24-7010-06) http://www.redbooks.ibm.com/Redbooks.nsf/RedbookAbstracts/sg247010.html (重点在第 1,2,3,4,5,6,12 章) IBM Midrange System Storage Implementation and Best Practices Guide (SG24-6363-04) http://www.redbooks.ibm.com/Redbooks.nsf/RedbookAbstracts/sg246363.html (重点在第 1,2,3,4,12 章) IBM Midrange System Storage Hardware Guide (SG24-7676-01) http://www.redbooks.ibm.com/Redbooks.nsf/RedbookAbstracts/sg247676.html (重点在第 1,2,3,4,7,8 章) 2. 作为 IBM 工程师/BP 代理商/客户,任何安装,实施,维护和变更工作都应首先参考官 方服务文档: 1) 每一个型号的 DS4000/DS5000 和扩展柜,都有一本最新版的 Installation,User’s and Maintenance Guide。 这本服务文档包含了以下重要内容: a. 物理安装的步骤 b. 详细的连线指南(包括主机端的连线图和内部磁盘柜的标准连线图) c. 如何查看和理解所有状态灯(LED)的含义 d. 所有硬件物理更换的具体步骤(在每次更换硬件之前都必须仔细查看) e. 备件号列表(Parts List) 2) IBM System Storage DS Storage Manager v10 Installation and Host Support Guide 这本 服务文档包含了在 AIX、Windows、HP-UX、Linux 等环境下使用 DS4000/DS5000 的以 下重要内容: a. AIX 环境下的限制要求 b. 如何使用“fget_config -Av”命令来检查 dar 的配置是否正确 c. “dar”和“dac”设备的各项属性的解释 d. 在 AIX 环境下在线更换热插拔的主机光纤卡(HBA)的步骤 e. AIX 的 Error Log 里面报告的“FCP_ARRAY_ERR”的具体解释 f. DS4000/DS5000 Diagnostic Data Collection(DDC) Event 的详细解释和处理办法 g. Firmware Upgrade Tool 的使用方法 h. 如何通过 Script Editor 运行脚本 下载地址: http://www-947.ibm.com/systems/support/supportsite.wss/docdisplay?lndocid=MIGR-50756 52&brandind=5000028 3) IBM System Storage DS4000/DS5000 Hard Drive and Storage Expansion Enclosure Installation and Migration Guide 这本服务文档包含了 DS4000/DS5000 系列的 EXP 扩展柜和硬盘的升级和迁移的重要注意事 项。 下载地址: http://www-947.ibm.com/systems/support/supportsite.wss/docdisplay?lndocid=MIGR-57818
第 4 页 共 62 页

&brandind=5000028 IBM 官方服务文档下载地址: 下载地址 1:IBM System Support 门户网站(下载官方服务文档和微码) http://www.ibm.com/systems/support/ 下载地址 2:IBM Publications Center IBM 出版物中心 (以“DS4000”或“DS5000”为关键字搜索,或者以具体型号为关键字搜索,例如“DS4700”) IBM Publications Center IBM 出版物中心链接 URL: http://www.ibm.com/e-business/linkweb/publications/servlet/pbi.wss

经验表明,造成客户的存储数据访问中断的外部原因主要有以下几种: 1. 存储内部错误的开关机顺序。例如先关扩展柜再关机头;或者先开了机 头再开扩展柜;或者是最后一个扩展柜加电后,没有等足够的时间就开 了机头。具体参见第三章。 2. 机头或扩展柜的速率开关处于错误的位置;或者是被在线拨动过。具体 参见第十四章第 2 节的 4)5)6) 。 3. 在没有参考任何 IBM 官方服务文档的情况下, 不规范的对存储进行了硬 盘或扩展柜升级。例如在不做任何准备工作的情况下,直接添加硬盘和 扩展柜,或者在不同的系统之间随意交换硬盘。具体参见第十四章第 8 节。 4. 在没有参考任何 IBM 官方服务文档或微码说明文件的情况下, 不规范的 对存储系统进行微码的升级,甚至降级。具体参见第八章和第九章 5. 对存储子系统进行“Reset Configuration”等破坏性操作。具体参见第十 四章第 14 节。 6. 在没有参考任何 IBM 官方服务文档的情况下, 对处于故障状态的存储进 行了一些不规范的修复操作。 7. 在进行所有维护操作之前,没有收集 ASD 并提前检查所有的相关隐患, 导致在维护过程中触发了相关的隐患。具体参见第十四章第 2 节。 8. 存储系统没有冗余的配置方案。例如每台主机只有一条光纤连接存储; 或者机头和扩展柜之间只安装了一条光纤等等。

第 5 页 共 62 页

一、DS4000/DS5000 系列的命名和介绍(包括如何区分DS4300 Base型号和Turbo型号) DS4000 系列原本叫 FAStT 系列,IBM 在 2004 年将其更名成 DS4000 系列。 新旧名称对应 关系如下:

旧的 FAStT200 和 FAStT500 因为在更名时已经停产,所以没有重命名; 新的 DS4200、DS4700、DS4800、DS5000 因为是在更名之后才推出市场的,因此没有所对 应的 FAStT 型号; DS5000 是 2008 年发布的,在市场定位上是 DS4800 的后继产品。按照缓存和扩展能力的区 别,有两个型号:DS5100(1818-51A)和 DS5300(1818-53A) DS5000 的起始微码版本是 07.30.21.00。 注意:如何区分 DS4300 基本型号和 Turbo 型号? 两者的型号都是 1722-60U ――》可以通过查看 Profile 里面,每个控制器的 Cache 缓存大小来确认。 DS4300 基本型号的每个控制器是 256MB Cache, 因此在 Profile 里面显示每个控制器的缓存 是 128MB,另外 128MB 划给控制器内部操作系统使用; Cache/processor size (MB): 128/128 微码在 06.23 以上的显示格式为: Cache Total data cache: 128 MB Processor cache: 128 MB DS4300Turbo 型号的每个控制器是 1GB Cache, 因此在 Profile 里面显示每个控制器的缓存是 864MB,另外 160MB 划给控制器内部操作系统使用; Cache/processor size (MB): 864/160
第 6 页 共 62 页

微码在 06.23 以上的显示格式为: Cache Total data cache: 864 MB Processor cache: 160 MB ――》DS4300 基本型号的控制器的 FRU 是 24P8206;DS4300 Turbo 型号的控制器的 FRU 是 24P8225。两个备件是互相不替代的,因此要注意,不能搞错。

二、如何观察DS4000/DS5000 各个部件的指示灯? DS4000/DS5000 系列中不同的产品型号,状态灯和故障灯的位置都不同。请参阅对应型号 的 Installation, User’s and Maintenance Guide (安装、 用户与维护指南) 的“Operating the storage subsystem”章的“Checking the LEDs”节。 注意:在新一代的控制器和扩展柜上,多了一个显示状态和错误代码的两位数字 LED,要 特别注意观察和对比文档。在正常情况下,该两位数字显示的是本柜子的 Enclosure ID。对 于基本柜,默认的 Enclosure ID 是“85”(除非人为更改) ;对于 EXP420/EXP810 扩展柜,默 认的 Enclosure ID 是由基本柜自动分配的,由 00 开始。一般请不要去人为变更。

第 7 页 共 62 页

三、DS4000/DS5000 的开关机步骤(非常重要) DS4000/DS5000 系列不需要运行命令进行开关机,只须关闭控制 2 个电源模块的电源开关 就可以了。 注意整个主机和存储环境的开关机顺序如下: 开机: SAN 光纤交换机(如果有的话)?DS4000/DS5000 的 EXP 磁盘扩展柜(如果有的话) ?DS4000/DS5000 的控制器?主机 特别注意在开完所有扩展柜之后在开控制器之前要等待几分钟,等待所有硬盘完成初始化 后,才开控制器。 关机: 主机? DS4000/DS5000 的控制器? DS4000/DS5000 的 EXP 磁盘扩展柜(如果有的话) ? SAN 光纤交换机(如果有的话) DS5000机头的关机细节和DS4000是不一样的: 关闭两个电源的开关 ----> 控制器缓存(Cache)中的数据自动备份到控制器内部的闪存 (USB Flash)中,控制器的LED 交错的显示 “os”和“bb” ---> 控制器电源在数据备份完成后 才会关闭 因为这个差异,DS5000的关机过程耗时比较长, 大概5-10分钟(控制器的LED会交错的显 示“os”和“bb”),关机后,控制器的代码和电源灯会熄灭。 在DS5000按下电源按钮关机后,在控制器代码和所有电源灯熄灭前绝对不能进行任何操 作!!!

DS4000/DS5000 系统的开关机顺序非常重要。不正确的开关机顺序 可能会导致部分硬盘离线以及数据无法访问。 如果出现这种情况, 客户工程师需要马上收集一份 All Support Data, 然后立即联系 IBM 寻求帮助。我们不建议在出现故障问题之后,再 尝试按照正确的顺序去开关机一遍。这个操作可能会把问题搞得更 糟。

第 8 页 共 62 页

四、如何在Storage Manager客户端管理软件里面添加DS4000/DS5000 子系统 DS4000/DS5000 的管理方式有 2 种,In-band(带内)管理方式和 Out-of-band(带外)管理 方式。这里主要介绍 Out-of-band(带外)管理方式。 Out-of-band(带外)管理方式就是安装有 Storage Manager 客户端软件的工作站通过以太网, 同时连接到 DS4000/DS5000/DS5000 的两个控制器进行管理的方式。示意图如下:

注意:如果一台 DS4000/DS5000 的控制器不能搜索到任何物理硬盘,例如没有安装任何物 理硬盘,或者控制器和磁盘扩展柜之间的光纤链路不通,那么对于这台 DS4000/DS5000, 无论是自动搜索还是手动添加方式,都会搜索到 2 个子系统。每个子系统只对应一个控制 器(一个 IP 地址) ,而不是对应两个控制器的一个子系统。这是产品的设计。因为两个控 制器需要获取硬盘上的配置信息来进行信息同步。 连接方式如下: 1. 将装有 Storage Manager Client 客户端软件的工作站 (客户提供的 PC 或是工程师的笔记 本电脑)通过以太网 Hub 或 Switch,同时连接到 DS4000/DS5000 的两个控制器。 2. 打开 Storage Manager Client 客户端软件(简称 SM) ,添加需要管理的 DS4000/DS5000 子系统。 有 2 种方式:Auto Discover(自动搜索)和 Manual Add(手动添加) 如果选择 Manual Add(手动添加) ,可以同时输入两个控制器的 IP 地址 3. 在微码版本 05.xx.xx.xx 以上,控制器有一个出厂默认的 IP 地址: 控制器 A:192.168.128.101 控制器 B:192.168.128.102 对于新的型号 DS4200、 DS4700 和 DS4800, 每个控制器提供了一个额外的以太网管理接口,
第 9 页 共 62 页

默认的 IP 地址是: 控制器 A:192.168.129.101 控制器 B:192.168.129.102 注意:由于 DS4200/4700/4800/5000 的两个控制器是以相反的方向(相互旋转 180 度)放置 的(标签却都是朝上的) ,因此两组以太网口,主机和磁盘柜光纤端口也是相反的,要注意 别插错网口。 4. 在 SM 软件的企业主管理界面, 可以看到所有已经添加的 DS4000/DS5000 子系统。 Status 为绿色向上箭头“Optimal”的,表明整台 DS4000/DS5000 的状态正常;Status 为红色向下箭 头“Needs Attention”的,表明 DS4000/DS5000 有故障报告,需要进一步检查。

第 10 页 共 62 页

5. 添加完毕之后,双击相应的 DS4000/DS5000 图标,进入子系统管理界面 注意:强烈建议装有 Storage Manager 客户端管理软件的 PC(工程师笔记本或者客户工作 站)通过以太网 Hub 或 Switch 同时连接 DS4000/DS5000 的两个控制器进行管理和监控。 原因如下: 1) 对于微码在 06.xx.xx.xx 以上的 DS4000/DS5000, 同时连接的两个控制器, All Support Data 日志里面才能获得两个控制器的串口命令输出。 如果是单连一个控制器的话, All Support Data 日志里面只能获得当前连接的控制器的串口命令输出。 2) 对于绝大部分管理操作,只连接一个控制器的时候都不能运行。因为两个控制器的配置 信息必须同步,这个同步过程是通过以太网实现的。 如果 SM 软件只连接一个控制器,只能进行以下信息查看和日志收集的操作: 1) 查看系统故障检测按钮“Recover Guru” 2) 查 看 和 收 集 Storage Subsystem Profile 和 Major Event Log 和 Read Link Status Diagnostics Report(RLS report)

五、如何使用Storage Manager客户端管理软件查看DS4000/DS5000 的状态 Storage Manager 客户端管理软件有两个界面:企业主管理界面(Enterprise Management)和 子 系 统 管 理 界 面 ( Subsystem Management ) 。企业主管理界面显示所有已添加的 DS4000/DS5000 子系统以及他们的总体状态和控制器的 IP 地址;每个子系统管理界面对应 一台 DS4000/DS5000 子系统,可以完成对这台 DS4000/DS5000 的所有管理和设置的操作。 注意:我们要求安装最新版本的 Storage Manager 客户端管理软件,因为 SM 软件和 DS4000/DS5000 控制器的微码有对应关系。低版本的 SM 软件不能管理高版本微码的 DS4000/DS5000,但是高版本的 SM 软件可以管理低版本微码的 DS4000/DS5000。 在用高版本的 SM 软件管理低版本微码的 DS4000/DS5000 的时候,虽然企业主管理界面显 示的版本是正确的当前最新版本号, 但是子系统管理界面在打开后显示的版本会比较低。 这 是因为子系统管理界面的版本是由控制器的微码所决定的。 注意:版本为 10.50 或以上的 SM 客户端管理软件,只能管理微码版本为 05.40 或以上的 DS4000。微码版本为 05.30 的 FAStT200/FAStT500,只能通过版本为 10.36 或以下的 SM 客 户管理端软件来管理。 1. SM 客户端管理软件的子系统管理界面的版本和 DS4000/DS5000 微码版本的对应关系 如下:
第 11 页 共 62 页

1) 对于微码版本在 04.01.xx.xx 的 FAStT200 或 500,子系统管理界面的版本是 07.10.xx.xx 2) 对于微码版本在 05.xx.xx.xx 的 DS4000,子系统管理界面的版本是 08.xx.xx.xx 3) 对于微码版本在 06.xx.xx.xx 的 DS4000,子系统管理界面的版本是 09.xx.xx.xx 4) 对于微码版本在 07.xx.xx.xx 的 DS4000/DS5000,子系统管理界面的版本是 10.xx.xx.xx 2. 打开 SM 客户端管理软件的子系统管理界面,界面如下图:

如上图,发生故障的部件都会被标记出来,一般是红色的交叉。图例如下: :损坏的物理硬盘(该物理硬盘是ARRAY的成员盘) :正常工作的物理硬盘(该物理硬盘是ARRAY的成员盘) :正常工作的热备物理硬盘(Hot Spare) :正常的“Unassigned”物理硬盘(未添加到任何ARRAY里面,硬盘上没有任何Array信息) : 黄黑相间的菱形, 代表几种可能的状态, 分别是:“By-passed (不能识别) ”, “Impending Failure(预期故障但当前可用)”,“Lost Redundancy Path(丢失冗余路径)”,“Offline(离 线)”等等。 :ARRAY阵列处于“Degraded”状态(多数是因为成员硬盘损坏) :ARRAY阵列处于“Offline”状态 :逻辑盘处于“Rebuild”的状态(多数是因为硬盘已经更换完毕,新硬盘正在替换过程中; 或者未更换硬盘,但是热备盘正在替换过程中)
第 12 页 共 62 页

:逻辑盘处于“Failed”的状态(原因是不可用的成员盘的数目,已经超过了该RAID级别可 以允许的最大值) 3. 使用“Recovery Guru” 故障检测按钮检查 DS4000/DS5000 子系统的整体状态 注意: DS4000/DS5000 的任何部件发生故障都会使菜单下面的一个“Recovery From Failure” (“听诊器 ”)的故障检测按钮闪烁。因此,我们要求在打开子系统管理界面之后,首

先就应该去点击这个按钮,以查看 DS4000/DS5000 的整体状态。 (注意:微码 07.50 以上,需要点击 View?Toolbar 才能显示出这个按钮) 点击这个按钮可以进入 Recovery Guru 界面。正常的状态显示如下:

故障的显示如下:

窗口的上面的部分是错误的概述和详情,下面是故障的可能原因和相应的解决方法提示, 应该仔细查看。 4. 查看控制器和扩展柜的硬件状态 点击物理硬盘右侧的状态检查按钮 ,可以打开查看具体部件的硬件工作状态,如
第 13 页 共 62 页

下图:

正常的状态必须是“Optimal” 5. 如何查看控制器的微码版本 控制器的微码包括 Firmware 和 NVSRAM 两部分。 选择“Storage Subsystem Menu”?“View”?“Profile”

点击“Controller”页面,可以看到控制器的微码:

第 14 页 共 62 页

点击“Drives”页面,可以看到物理硬盘的型号和微码版本,点击“Enclosures”页面,可以看到 磁盘扩展柜的 ESM 的微码版本。

第 15 页 共 62 页

六、微码在 06.xx.xx.xx和 07.xx.xx.xx的故障数据收集 适应机型:DS4100/DS4200/DS4300/DS4400/DS4500/DS4700/DS4800/DS5100/DS5300: 在这个版本的微码之下,SM 子系统界面的版本是 09.xx.xx.xx 或 10.xx.xx.xx。 1. 强制要求收集 All Support Data All Support Data(ASD)是 DS4000/DS5000 最基本和最重要的数据收集手段 菜单:Advanced-->Troubleshooting-->Collect All Support Data ...

这个操作会生成一个zip文件,可以随意命名。

第 16 页 共 62 页

收集All Support Data的时间取决于扩展柜和硬盘的个数,大概在5-15分钟左右。 这个文件已经包含了Profile、Major Event Log、Read Link Status Diagnostics Report以及 其他一些日志。 注意: 一定要让装有Storage Manager客户端管理软件的PC(工程师笔记本或者客户工作站)同时连 接DS4000/DS5000的两个控制器,才能获得两个控制器的串口命令输出。如果是单连一个控 制器的话,那么"stateCaptureData.dmp"文件只能获得当前连接控制器的串口命令输出。 如果在现场实在没有Switch/Hub,不具备同时连接两个控制器的物理条件,可以尝试分别 连接两个控制器,收集两份All support data。这样,两份All support data里面的 "stateCaptureData.dmp"文件只能包含各自连接控制器的串口命令输出。 2. 查看 Major Event Log 菜单:Advanced-->Troubleshooting-->View Event Log

3. 查看 Read Link Status Diagnostics Report(RLS report) 链路信号噪音检测报告 FAStT/DS4000/DS5000 系列的一个技术特点是采取了 FC_AL 的光纤仲裁环路结构。也就是 说,控制器,磁盘扩展柜都是串行连接在光纤链路上的。这种结构有一个缺点,就是环路上 某个硬件的故障,会引起噪音信号,从而有可能影响链路上其他的硬件的正常工作。另一方 面,这种噪音故障很难进行准确定位。因此 SM 软件提供了一个测试程序 Read Link Status Diagnostics 检测链路上的信号噪音,用来协助故障定位。 关于 RLS 的具体用法和解释,参见 Redbook“DS4000/DS5000 Series, Storage Manager, and Copy Services”的第 6.2.5 节:“Read Link Status diagnostics”。 菜单:Advanced-->Troubleshooting-->Run Diagnostics-->Read Link Status … 在处理任何和链路噪音有关的问题时,因为 DS4000 可能累计了不少链路噪音数值,所以往
第 17 页 共 62 页

往建议先通过 SM 运行以下三条脚本(运行脚本的说明请参考第十二章) ,把所有链路噪音 数值清零: clear allDriveChannels stats; reset storagesubsystem RLSBaseline; reset storagesubsystem SOCBaseline; 我们建议等待至少 15 分钟,然后收集一份最新的 ASD。 RLS 会被包含在 ASD 里面。

第 18 页 共 62 页

七、微码在 05.xx.xx.xx或以下的DS4000/DS5000 的故障数据收集 适 应 机 型 : FAStT200/FAStT500/ 一 部 分 旧 的 FAStT100(DS4100) 、 FAStT600(DS4300) 、 FAStT700(DS4400)、FAStT900(DS4500) 在这个版本的微码之下,SM 子系统界面的版本是 08.xx.xx.xx。 需要单独收集日志文件: Storage Subsystem Profile、 Major Event Log 和 Read Link Status Diagnostics Report(RLS report)和通过 SM 图形界面收集的控制器串口日志 1. 收集 Storage Subsystem Profile 选择“View”菜单下面的“Storage Subsystem Profile” ,选择“Save As…” , 将 Profile 保存 下来,默认格式是 txt 文本。如果是一台 FAStT200,序列号为 23A8888,建议文件名为 FAStT200_Profile_23A1888_yymmdd.profile.txt。

2. 收集 Major Event Log 选择选择“View” 菜单下面的“Event Log” ,或者直接点击子系统界面里的 按钮:

第 19 页 共 62 页

注意: a.在收集 Major Event Log 的时候,一定要取消默认的"Critical Event Only"的选项勾,确 保能收集到所有 event。 b. 一定要设定足够多的行数收集,建议将“ Retrieve most recent events ”设为最大值的 “8192” ,并按 Update 刷新。因为默认是只显示 100 行 event 记录。 c.最后点击“Select All” ,然后“Save As…”保存

默 认 格 式 是 文 本 (*.log) , 如 果 是 一 台 FAStT200 , 序 列 号 为 23A8888 , 建 议 文 件 名 为 FAStT200_Profile_23A1888_yymmdd.mel.txt。 3. 收集 Read Link Status Diagnostics Report(RLS report) 链路信号噪音检测报告 在 Subsystem Management 中,选择 Storage Subsystem>> Read Link Status Diagnostics:

第 20 页 共 62 页

对于 RLS report, 因为初始的 report 可能累计了不少链路噪音数值,所以建议先点击"Set Baseline..."重置采样开始时间,将所有噪音数值清零,然后点击"Run"开始重新监测。我们 建议等待 15 分钟至 1 个小时,然后点击"Save As"保存报告。默认的报告文件类型是 Excel 格式(CSV) 。一般查看噪音信号“ITW”值。正常情况下,噪音值应该很小,在 0 到 20 之 间 4. 通过 Storage Manager 客户端软件收集控制器的串口日志 (微码必须是 05.XX 版本) 在微码 05.XX 版本下, SM 客户端软件提供了一个通过图形界面收集基本的控制器串口命令 的方法: 菜单:Advanced-->Capture State Information

,必须将收集到的文本文件重命名成*.ss.txt。 默认格式是文本(*.dmp 文件)
第 21 页 共 62 页

注意: 装有 Storage Manager 客户端管理软件的 PC(工程师笔记本或者客户工作站)必须通过以太网

Hub 或 Switch 同时连接 DS4000/DS5000 的两个控制器

第 22 页 共 62 页

八、DS4000/DS5000 系列的微码升级 对于所有的 DS4000 和 DS5020,在保修期内升级微码是客户的责任。IBM 官方网站有以下 明确的说明: http://www-947.ibm.com/systems/support/supportsite.wss/docdisplay?lndocid=MIGR-5082015& brandind=5000028 DS4000/DS5000 系列微码包括三部分,控制器的主微码(Firmware 和对应的 NVSRAM) , 磁盘扩展柜(EXPXX0)的控制模块 ESM 的微码,以及硬盘的微码。 DS4000/DS5000 系列根据型号的不同,微码的版本也不同,对应关系非常复杂,请参照控 制器微码和 ESM 微码的两个 Readme 文件。 微码和说明文件的下载地址: http://www-947.ibm.com/systems/support/supportsite.wss/allproducts?brandind=5345868 关于微码升级顺序的建议: a.一般顺序是先升级磁盘扩展柜 ESM 的微码,再升级控制器微码,最后升级硬盘的微码; b.在有硬件故障(电池过期 Near Expiration 报警不算)的情况下禁止升微码,必须先把 故障修复之后才能升微码。除非有 JFQ3/JFQ4/S707 微码的硬盘(先升硬盘微码) 。 c. 例外情况: :如果有硬盘在 JFQ3/JFQ4/S707 微码版本,除非有坏盘,其余任何情况下都要首先把 JFQ3/JFQ4/S707 微码的硬盘升到 JFQ8/S708 版本。 :如果目前控制器的微码是 06.12.27.00 或以下版本,又连接了 ESM 微码版本在 9639 或以 下版本的 EXP710 扩展柜, 那么必须先升级控制器的微码, 才能升级 EXP710 的 ESM 微码。 也就是说,EXP710 ESM 微码 9639 或以上,要求的最低控制器微码版本是 06.12.27.03 :如果目前控制器的微码是 06.12.40.00 以下版本,又连接了 ESM 微码版本在 9661 以下版 本的 EXP710 扩展柜,那么必须先升级控制器的微码,才能升级 EXP710 的 ESM 微码。 也就是说,EXP710 ESM 微码 9661,要求的最低控制器微码版本是 06.12.40.00 请仔细对比控制器微码和 ESM 微码的两个 Readme 文件,找出它们之间的相互依赖关系 典型案例如下: 典型案例一: DS4300 不带扩展柜,一个控制器电池故障(处于 Failed 状态) ,一块硬盘损坏,有硬盘在 JFQ3 版本。 解决步骤: 1. 先把故障硬盘更换了(坏盘会威胁数据安全,因此先换盘) 2. 升级那些微码是 JFQ3 版本的硬盘到 JFQ8 版本 3. 更换控制器电池(在有 JFQ3/JFQ4 硬盘的情况下,是绝对不能插拔控制器或升级控制 器/ESM 微码的) 4. 升级控制器微码到最新的推荐版本 5. 把剩下的非 JFQ 系列的硬盘微码升到最新 典型案例二: DS4500(微码 06.12.16.00)带 EXP710 扩展柜(ESM 微码 9631) ,基本柜电池故障,有硬 盘在 JFQ4 版本 解决步骤:
第 23 页 共 62 页

1. 升级那些微码是 JFQ4 版本的硬盘到 JFQ8 版本(除非有坏盘,任何情况下都要先解决 JFQ3/JFQ4/S707 隐患) 2. 在线更换基本柜电池(在解决硬盘微码隐患之后,先修复所有硬件故障才能升微码) 3. 先把控制器微码升到 06.12.56.00(因为当前的 EXP710ESM 微码版本是 9631,而微码 9639 或以上,要求的最低控制器微码版本是 06.12.27.03;之所以不能升到最新,是因为控 制器微码 06.60.22 要求 EXP710 的最低 ESM 微码在 9663 或以上,参见控制器微码 readme 文件) 4. 再把 EXP710 的 ESM 微码升到当前最新的 9682(满足控制器微码 06.60.22 的要求) 5. 把控制器微码升到最新的推荐版本 06.60.22.00 6. 把剩下的非 JFQ 系列的硬盘微码升到最新 注意事项: 1) 任何变更(包括微码升级)之前,都要收集一份 ASD。 2) 升级微码之前,一定要通过查看“Recovery Guru”和 MEL 确保机器处于健康的状态。 3) 在下载微码时一定要阅读网站上的重要提示 4) 在下载微码或 Storage Manager 客户端软件时,一定要首先下载并查看位于同一下载页 面的说明文件“ibm_***_anyos_anycpu.txt”。该文件非常重要,包含了以下一些重要的 说明: a. 该版本的微码支持哪几种型号的 DS4000/DS5000 控制器 b. 该版本的微码支持哪几种型号的 DS4000/DS5000 磁盘扩展柜 c. 该版本的微码要求所支持的 DS4000/DS5000 磁盘扩展柜的 ESM 的最低微码要求是多少 d. 仔细对比控制器微码和 ESM 微码的两个 Readme 文件,找出它们之间的相互依赖关系 e. 其他的一些重要的限制信息,一些已知的故障现象和解决办法 一定要仔细阅读这些限制信息,因为如果升级了错误版本的微码,不但会导致 DS4000/DS5000 不能使用,还会导致磁盘扩展柜上面的客户数据永久丢失! ! ! 5) 同一下载页面还有一个名为“ibm_fw_ds4kfc2_***_anyos_anycpu_chg”的文件。该文件 说明这一版微码修补了哪些 BUG,可供参考。 6) 将微码的 Zip 文件解压之后,微码文件会自动解压到以对应的 DS4000/DS5000 型号命 名的目录下面,请注意区分。 7) 升级微码的操作应该安排在客户停机时间进行,不一定需要关闭主机,但是必须停止一 切数据访问。 8) 对于 05.30.xx 版本的微码,必须先升级 Firmware,再升级 NVSRAM。对于 06.1x.xx 版本的微码,建议同时选择升级 Firmware 和 NVSRAM。 9) 一定要让装有 Storage Manager 客户端管理软件的 PC 同时连接 DS4000/DS5000 的两个 控制器,才能完成微码升级。 10) 除非客户一定要使用微码 07.xx 的新功能, 否则不建议把微码从 06.xx 升级到 07.xx。 11) 微码从 06.xx 到 07.xx 的升级,由于微码架构变更很大,因此不能通过 SM 软件的 子系统管理窗口实现,必须要通过专用的 Firmware Upgrade 功能(这个功能已经集成在 SM 10.60 里面了,请参考第九章)来实现。 12) 微码升级到 07.xx 之后,是无法通过正常的途径降回到 06.xx 的。

第 24 页 共 62 页

1. 对于初始微码版本是 06.xx 或 07.xx 的 DS4000/DS5000,微码升级说明如下: 1) 升级 ESM 微码的步骤如下: 菜单:选择 Advanced ?Maintenance ? Download? ESM Firmware …

2) 在窗口中选择要升级的 ESM 管理模块,并选择微码文件

因为一次只能升级一种 EXP 类型的多个 ESM 模块,因此 DS4000/DS5000 连接着几种不同 的 EXP 磁盘扩展柜,就必须分几次升级。 3) 点击“Start …”开始升级,SM 软件会自动的依次升级 ESM 的微码。每个 ESM 耗时 4 分 钟左右,直到所有 ESM 的升级状态都变成“Complete”。

第 25 页 共 62 页

注意: a. EXP100 磁盘扩展柜的 ESM 微码不在 ESM 和硬盘微码的 Zip 集合文件里面, 必须另行 下载。 下载地址和控制器微码一样。 EXP100 磁盘扩展柜当前最新的 ESM 微码是 9566。 b. 最低版本要求为 9563 的 EXP100 的 ESM 微码,必须和控制器微码 06.12.16.00 或以上 一起使用, 才能对新的 SATA 硬盘备件 (250GB FRU: 40K6837, 400GB FRU: 39M4575) 提供支持。否则 DS4000/DS5000 控制器将不能识别新的 SATA 硬盘备件。因此如果拿 到了上述新的硬盘备件,就必须确保控制器和 ESM 的微码满足最低要求,否则将无法 更换。 4) 对于升级控制器的微码,在版本 06.xx.xx.xx 或以上,SM 软件提供了一个统一的界面, 可以同时升级 Firmware 和 NVSRAM。 (以下步骤只限于从 06.xx 升级到 06.xx,以及从 07.xx 升级到 07.xx) 菜单:选择 Advanced ?Maintenance ? Download? Controller Firmware …

第 26 页 共 62 页

5) 会出现一个统一的界面,先后将 Firmware 和 NVSRAM 的微码文件选择好。然后点击 “OK”,经过确认后升级就会开始。

6) 完成确认后,微码升级开始。

首先是微码上传到控制器,然后是控制器的微码升级和先后重启:

第 27 页 共 62 页

7) 直到升级结束,按“Close”退出

8) 如果 Firmware 的升级版本跨度比较大, 例如从 06.10.xx 升级到 06.12.xx, 或者从 06.15.xx 升级到 06.16.xx,那么 SM 子系统管理界面在 Firmware 升级完成之后,会自动弹出以下 窗口,提示当前的子系统管理界面窗口将会被关闭,需要重新打开子系统管理界面,系 统会自动调用新版本的子系统管理界面。

第 28 页 共 62 页

9) 接下来升级物理硬盘的微码 菜单:选择 Advanced ?Maintenance ? Download? Drive Firmware/Mode Pages …

10) 系统会自动打开硬盘微码升级向导,指引进行微码升级。该向导会在 “Current Firmware Package Information”的位置显示当前机器里面的硬盘类型和微码版本(Drive Product IDs and firmware) 。 例如下图所显示的当前机器里面的硬盘类型是 HUS103030FLF21;微码版本是 JFQ4。

11) 点击“Browse…”,选择相应的硬盘微码文件 注意: a. 对于控制器微码在 06.xx.xx.xx 或以上的 DS4000/DS5000,硬盘微码文件一定要在子目 录“HDD_SM9x_format”里面选择。 b. 微码文件名的前半部分,就是所对应的硬盘类型(例如 HUS103030FLF21) ,要确保其
第 29 页 共 62 页

c.

和上一步所确认的当前硬盘类型完全一致。 与此同时,如果所选定的硬盘微码文件和当前的硬盘类型相匹配,那么对话框将自动检 测并显示出该微码文件是匹配的“The Package is compatible”。

d. 如果所选定的硬盘微码文件和当前的硬盘类型是不匹配的, 那么对话框将自动检测并显 示出该微码文件是不匹配的“The Package is not compatible”。

第 30 页 共 62 页

12) 选择好硬盘微码文件之后,点击“OK”返回微码选择界面。在确认了微码文件的匹 配情况之后,点击“Next >”进入候选硬盘选择界面。

13) 在候选硬盘选择界面,可以一次性全选所有类型相同的硬盘,进行升级。 注意: a. 如果存在好几种不同类型的硬盘,我们建议分开几次升级微码。 b. 硬盘的微码升级,必须安排在客户停机时间进行,不一定需要关闭主机,但是必须停止 一切数据访问。 c. 类型为 HUS1030XXFLF21,微码版本为 JFQ3、JFQ4 的硬盘存在着已知的问题,很容 易受到链路噪音的影响而发生多块硬盘同时损坏的情况,应尽快升级微码到 JFQ8。 d. 类型为 MAX3036FD, MAX3073FD, MAX3147FD, 微码版本为 S707 的硬盘存在着已知 的问题,很容易受到链路噪音的影响而发生多块硬盘同时损坏的情况,应尽快升级微码 到 S708 或以上。 e. 类型为 ST31000340NS, ST3250310NS, ST3500320NS, ST3750330NS, 微码版本为 BB10 的 SATA 硬盘存在着已知的微码问题, 很容易在关机重启后发生多块硬盘同时损坏的情 况,应尽快升级微码到 BB12 或以上。受影响的 FRU 号是: "ST3500320NS 39M4557 BB10 500GB EXP810/DS4700 专用 "ST3500320NS 42D0392 BB10 500GB EXP420/DS4200 专用 "ST3750330NS 43W9715 BB10 750GB EXP810/DS4700 专用 "ST3750330NS 43W9720 BB10 750GB EXP420/DS4200 专用 "ST31000340NS 44X2459 BB10 1TB EXP810/DS4700 专用 "ST31000340NS 44X2455 BB10 1TB EXP420/DS4200 专用

第 31 页 共 62 页

14) 点击“Finish…”,硬盘微码升级开始,直到所有的硬盘都显示“Successful”。在控制 器微码版本 06.xx.xx.xx 或以上, 硬盘的微码升级是并发进行的, 因此微码升级的时间非 常短,每块硬盘不到 1 秒! ! !

第 32 页 共 62 页

九、使用Controller Firmware Upgrade Tool对DS4000/DS5000 进行健康检查和微码从 06.xx 到 07.xx的升级 在 Storage Manager 客户端软件版本 v10.60 以上,Storage Manager 程序里面集成了一个 Controller Firmware Upgrade Tool(微码升级工具程序) 。 这个程序设计的初衷是为了进行控制器微码从 v6 版到 v7 版的升级 (控制器微码从 06.xx 版 升级到 07.xx 版, 必须使用该程序而不能使用 SM 客户端软件子系统管理窗口内部的菜单) 。 而我们目前可以利用其在微码升级前的健康检查功能,对 DS4000/DS5000 系统进行健康检 查。使用方法如下: 1. 在 Storage Manager 的 Enterprise Management 窗口,左键点击要做健康检查的 DS4000 子系统,然后在“Tools”菜单,选择“Upgrade Controller Firmware...”。

2. 该程序会自动开始对 DS4000 子系统进行全面的健康检查,在五分钟之内就可以完成。 在检查完成之后,会显示该子系统的状态,能否进行微码升级:

第 33 页 共 62 页

在“Status”栏, 正常的检查结果应该是“Upgradeable:Optimal”,下面应该显示“No problems detected”,表明 DS4000/DS5000 系统当前正常。 异常的结果包括“Not-upgradeable”和“Upgradeable:Needs Attention”,表明 DS4000 系统存在 问题。 3. 点击右侧的“View Log”按钮,可以查看检查项目的细节和结果:

4. 如果需要进行微码从 06.xx 到 07.xx 的升级,点击右侧的 “Firmware…” 按钮,选择 Firmware 和 NVSRAM 文件即可。 注意事项: 1. 该工具软件的用法是: 进行 DS4000/5000 微码升级前的健康检查; 进行 DS4000/5000 日常巡检的健康检查 进行 DS4000 从 06.xx 到 07.xx 的微码升级 2. 对于 DS4000,除非客户一定要使用微码 07.xx 的新功能,否则不建议进行微码从 v6 到 v7 的升级。微码一旦升级到 07.xx,是不能通过常规的方法降回到 06.xx 的。 如果进行微码从 07.xx 到 06.xx 的回退,所有的逻辑配置和数据会被删除。 3. 微码不能从 06.xx 直接升级到 07.50 或以上,只能先升级到 07.36,再在 07.36 的基础上 进行第二次升级。公网网页: http://www-947.ibm.com/systems/support/supportsite.wss/docdisplay?lndocid=MIGR-50818 75&brandind=5000028 4. 该工具软件目前只适用于 DS4200、DS4700 和 DS4800 和 DS5000 5. 如果健康检查不能通过,而出现的错误又不能通过现有的服务文档解决的,请收集 All Support Data,寻求 IBM 的帮助。
第 34 页 共 62 页

十、DS4000/DS5000 电池寿命和更换策略的重大变更 【DS4000/DS5000电池和缓存的设计原理】 1. 为了保证写缓存数据的安全性,DS4000/DS5000系统中,只要电池发生故障(处于Failed 状态)或者超过微码所规定的设计寿命(微码在06.60以下是39个月,微码在06.60以上 是10年) , 那么写缓存就会被自动禁用。 这是为了优先确保数据安全的的正常设计机制。 2. 为了保证写缓存数据的安全性,默认两个控制器的Cache Mirroring写缓存镜像功能是打 开的。 因此当一个控制器的写缓存被禁用之后, 另外一个控制器的写缓存也不能使用了。 【写缓存禁用之后的故障现象】 1. 主机端应用程序响应变慢,从topas检查主机性能指标,I/O waiting显著增加,每个逻辑 盘的busy接近100%,但是IO吞吐量很小,每秒只有几十K到1M不等: 2. 检查LUN的cache状态也可能以下情况: 在 Storage Manager 客户端图形软件里面检查,写缓存 Cache 状态出现红点,表示写缓存虽 然被 enable,但是当前并未被激活使用,也就是说处于 Suspended 的状态。 【IBM关于DS4000电池寿命和更换策略的重大变更】 在微码 06.60.XX 以下, DS4000微码对于电池寿命的限制是: 设计寿命是39个月(大约1170天)。 微码会在电池寿命达到36个月(大约3年,1080天)之 后开始告警,提醒需要更换。 在达到39个月的寿命之后,写缓存会被微码自动禁用。 但是这种设计并不能体现电池的实际寿命,39个月之后的写缓存被禁用会影响DS4000的性 能。因此IBM经过仔细的研究,在微码06.60以上对电池的设计寿命和更换策略作出了重大 变更,如下: 在微码 06.60.XX 或以上, DS4000微码对于电池寿命的限制是: 设计寿命变更为10年(大约3600多天)。 微码会在电池寿命达到62个月(大约5年多,1860天)之后开始告警,提醒需要更换。 在达到10年的寿命之后,写缓存会被微码自动禁用。 IBM官方网站的说明链接: http://www-947.ibm.com/systems/support/supportsite.wss/docdisplay?lndocid=MIGR-5077450& brandind=5000028 【电池的更换策略】 首先通过Storage Manager 客户端图形软件或者Profile确认电池的状态(Battery status) 1. 如果电池当前是处于“Failed”或“Removed”状态,处理方法如下: 1.1 如果电池是因为超过设计寿命(微码版本在 06.60 以下的设计寿命是 39 个月)而变成 “Failed”状态,那么我们建议安排时间更换电池。如下图: Battery status: Failed Location: Controller in slot B Age: 1958 day(s) Battery end-of-life reached 1.2 如果电池是因为超过设计寿命(微码版本在 06.60 以下的设计寿命是 39 个月)而变成 “Failed”状态,而客户又急需立即恢复系统性能而不愿意立刻更换电池的,可以尝试采 取Reset电池寿命的方法尝试恢复写缓存的正常工作状态。 (只是一个临时解决方案,可
第 35 页 共 62 页

以在线执行,不能保证成功) 1.3 如果电池并没有超过设计寿命但已经处于“Failed”状态,就只能更换电池,如下图: Battery status: Failed Location: Controller A Age: 1,236 days Days until replacement: 2,453 days 2. 如果电池当前状态正常,只是接近或已超过告警寿命,如下图: Battery status: Near expiration Location: Controller A Age: 1,130 days Days until replacement: 39 days 处理方法如下: 2.1 如 果 当 前 微 码 是 在 06.60 以 下 , 并 且 可 以 升 级 到 06.60 或 以 上 版 本 的 (DS4300/DS4500/DS4200/DS4700/DS4800),我们建议先将微码升级到06.60或以上, 电池过期的告警将在微码升级后消除。在达到新的电池告警寿命62个月(大约5年多, 1860天)之前,不需要更换电池,除非电池处于“Failed”状态。 2.2 如果客户没法在电池设计寿命到期前安排停机时间升级微码, 可以采取Reset电池寿命的 方法暂时尝试延长电池的工作时间。(只是一个临时解决方案,可以在线执行) 2.3 如果当前微码是在 06.60 以下,但是因为机型的限制,无法升级到 06.60 或以上版本的 ( FAStT200/FAStT500 的 最 高 微 码 是 05.30.25.00 ; DS4100/DS4400 的 最 高 微 码 是 06.12.56.00),我们建议在达到现有微码的电池告警寿命36个月(大约3年,1080天)之 后,更换电池。 2.4 如果当前微码是在06.60以上,并且已经达到了新的电池告警寿命62个月(大约5年多, 1860天),我们建议直接更换电池。

第 36 页 共 62 页

十一、DS4000/DS5000 更换电池的注意事项 1. 更换电池的物理步骤,务必严格地按照 DS4000/DS5000 相应型号的维护手册进行 (Installation, User's, and Maintenance Guide) 。下载地址请参照本文第 4 页。 2. 对于 FAStT200/DS4100 和 DS4300,因为电池安装在控制器的内部,所以更换电池 需 要 拔 出 包 含 故 障 电 池 的 控 制 器 。 DS4200/DS4400/DS4500/DS4700/DS5020/DS5100/DS5300 的电池更换,不需要离线 和拔出控制器。 3. 处于安全的考虑, 我们一般建议安排停机时间进行离线更换。 如果要在线更换电池, 就必须进行充分的准备工作。 4. FAStT200/DS4100 和 DS4300 的完整在线更换电池步骤如下: a. 请务必参考第十四章第 1 节,一定要先收集一份 ASD 并且确认有没有微码为 JFQ3/JFQ4/S707 的硬盘。如果有就要安排停机时间先升级硬盘的微码,否则可 能会导致多块硬盘在控制器拔出的过程中离线,从而导致数据访问中断。 b. 先按照第十四章第 2 节对于“逻辑盘不在最优路径”的检查方法,确认每一台 主机的两条物理通路都是正常的,都可以正常的实现双通路的切换。 c. 确认完成后,通过 SM 客户端软件把所有逻辑盘(Logical Drive)的最优路径 切换到另外一个控制器上, d. 然后通过 SM 客户端软件 Offline 并拔出包含故障电池的控制器。 e. 严格地按照官方维护手册(Installation, User's, and Maintenance Guide)进行电 池的物理更换。 f. 更换完电池后,插入控制器并通过 SM 客户端软件 Online 该控制器。如果光纤 的收发两路是分开的,在把光纤插回去的时候要特别注意收发两路光纤的顺 序,不能插反。拔出光纤前对收发两路各做一个标签是值得推荐的做法。 g. 通过 SM 客户端软件重置新电池的寿命(Reset Battery Age) h. 按照第十四章第 2 节对于“逻辑盘不在最优路径”的检查方法,确认每一台主 机的两条物理通路已经恢复正常。 i. 如果需要更换另外一个控制器的电池,请重复步骤 c 到 h j. 最 后 恢 复 所 有 逻 辑 盘 的 最 优 路 径 , 菜 单 是 Advanced --> Recovery --> Redistribute Logical Drives 5. 请注意在DS4800的维护手册中有两个章节的标题“Replacing the interconnect-battery unit”与“Replacing a backup battery pack”,非常相似,容易使人产生误解。请注意如 果要更换电池,需要参考“Replacing a backup battery pack”一节。 6. 需要15分钟至72小时才能使新电池完全充电完毕,在电池完全充满电之前,控制器 的写缓存仍然会被自动禁用。

第 37 页 共 62 页

十二、如何通过SM客户端软件的Script Editor脚本编辑器运行脚本 在 SM 里面运行脚本的图例: 在 SM 的 Enterprise Management 窗口里面,执行 Execute Script…,Script Editor 脚本编辑器 的窗口就会打开:

直接在 Script Editor 里面输入和编辑脚本,就可以了。 如果要运行现成的脚本文件,打开了 SM 的 Script Editor 之后,点击 Load Script…,在对话 框里面选择现成的脚本。

最后在Tools菜单里面,选择Verify and Execute,会校验脚本的语法并执行脚本。
第 38 页 共 62 页

第 39 页 共 62 页

十三、DS4000/DS5000 在AIX上使用MPIO的一些注意事项 AIX 版本 5.2 以上,除了原有的集成的 RDAC 功能以外,操作系统还新增了 MPIO 的功能 来实现外部磁盘的多通路访问。 AIX 5.2/5.3 默认是使用 RDAC, 而 AIX6.1 默认是使用 MPIO。 1. 实施的前提条件 最低的 AIX 版本要求: AIX 5.2 TL10SP4+ IZ13624 AIX 5.3 TL 6SP5 + IZ13625 AIX 5.3 TL 7SP2 + IZ13626 AIX 6.1 TL 0SP2 + IZ13627 控制器微码:06.60 以上 支持的机型:DS4200/DS4300/DS4500/DS4700/DS4800/DS5000 2. RDAC 和 MPIO 的兼容性 DS3000: 只支持 native MPIO DS4000: 支持三种方式:RDAC, native MPIO, MPIO w/SDDPCM DS5000: 支持二种方式: native MPIO, MPIO w/SDDPCM (DS5000 在 AIX 上不再支持 RDAC) 关于兼容性列表可查询下列网站: DS3000 family products interoperability matrix http://www.ibm.com/systems/storage/disk/ds3000/pdf/interop.pdf DS4000 family products interoperability matrix http://www.ibm.com/systems/resources/systems_storage_disk_ds4000_pdf_interop-matrix.pdf DS5000 family products interoperability matrix http://www.ibm.com/systems/resources/systems_storage_disk_ds5000_interop-matrix.pdf 3. 如何在 AIX 上确认当前正在使用 MPIO 还是 RDAC 在AIX中执行“manage_disk_drivers” 以下是一个当前使用MPIO的例子: #manage_disk_drivers 1: DS4300: currently MPIO; supported: RDAC/fcparray, MPIO 2: DS4500: currently MPIO; supported: RDAC/fcparray, MPIO 3: DS4700/DS4200: currently MPIO; supported: RDAC/fcparray, MPIO 4: DS4800: currently MPIO; supported: RDAC/fcparray, MPIO 以下是一个当前使用RDAC的例子: 1: DS4300: currently RDAC/fcparray; supported: RDAC/fcparray, MPIO 2: DS4500: currently RDAC/fcparray; supported: RDAC/fcparray, MPIO 3: DS4700/DS4200: currently RDAC/fcparray; supported: RDAC/fcparray, MPIO 4: DS4800: currently RDAC/fcparray; supported: RDAC/fcparray, MPIO 4. 如何在 MPIO 和 RDAC 两种工作模式之间切换 请查阅相应 AIX 版本的 Release Notes,AIX Release Notes 可以在 IBM 出版物中心下载。 以“AIX Release Notes”为关键字在 IBM 出版物中心搜索
第 40 页 共 62 页

5.

在 MPIO 方式下 DS4000/DS5000 与主机连线和 RDAC 方式不一样

(下列连线图来自于官方文档 IBM System Storage DS Storage Manager Version 10 Installation and Host Support Guide) http://www.ibm.com/systems/support/supportsite.wss/docdisplay?lndocid=MIGR-5075652&bran dind=5000028 AIX fcparray(经典RDAC的连线方式,仍然保持一个 HBA port 与一个CTRL port的对应)

MPIO和SDDPCM的连线方式: 这种方式下,是可以建立一个HBA port 对应于2个CTRL port的对应关系。 对于DS4K、5K的MPIO/SDDPCM多路径管理软件而言,最多支持的路径数量仍然是4条。 (有些材料上是用推荐4条的措词)

第 41 页 共 62 页

6. 如何检查当前磁盘的工作路径 RDAC:fget_config -Av MPIO: mpio_get_config -Av SDDPCM: sddpcm_get_config -Av (注意在某些低版本中该命令显示的 LUN 和 owner 的控制器关系并不正确,需要 AIX fix: IZ19148: MPIO_GET_CONFIG PRINTS OUT INCORRECT LUN OWNERSHIP APPLIES TO AIX 5300-07 如果怀疑眼前看到的结果,可以到 SM 上去验证或者用 lspath 命令查看) 7. MPIO 模式下路径切换时间过长或挂死的问题 在 MPIO 模式下,有一个路径切换的问题。 测试的结果表明,在 MPIO 模式下,每个 LUN 的控制器路径的切换,需要 1 至 3 分钟的时 间。这个已经远远超出了大部分数据库的超时时间,有可能影响客户的应用。 而在 RDAC 的模式下,每个 LUN 的控制器路径的切换,只需要 15 秒至 1 分钟的时间。 解决办法: 1) 安装以下 AIX 的 APAR 补丁 5300-09 - use AIX APAR IZ66754 5300-10 - use AIX APAR IZ69293 5300-11 - use AIX APAR IZ65626 6100-04 - use AIX APAR IZ65627 2) 在安装完以上 APAR 后,每个 hdisk 的属性下会增加以下两项,用 chdev 命令将参数改 为以下两个建议值。 cntl_hcheck_int 2 cntl_delay_time 30 3) 此外,还需要安装以下 AIX 的 APAR 补丁,可以解决路径切换时 I/O 挂死。 5300-09 - use AIX APAR IZ77897 5300-10 - use AIX APAR IZ77901 5300-11 - use AIX APAR IZ77906 5300-12 - use AIX APAR IZ77907 6100-02 - use AIX APAR IZ77908 6100-03 - use AIX APAR IZ77366 6100-04 - use AIX APAR IZ76820 6100-05 - use AIX APAR IZ77189 完成上述解决办法后,在 MPIO 模式下每个 LUN 的控制器路径的切换时间,可以压缩到 30 秒左右。

第 42 页 共 62 页

十四、常见故障处理和注意事项 1.造成客户的存储数据访问中断的主要外部原因 主要有以下几种: 1) 存储内部错误的开关机顺序。例如先关扩展柜再关机头;或者先开了机头再开扩展 柜;或者是最后一个扩展柜加电后,没有等足够的时间就开了机头。具体参见第三 章。 2) 机头或扩展柜的速率开关处于错误的位置;或者是被在线拨动过。具体参见第十四 章第 2 节的 4)5)6) 。 3) 在没有参考任何 IBM 官方服务文档的情况下,不规范的对存储进行了硬盘或扩展 柜升级。例如在不做任何准备工作的情况下,直接添加硬盘和扩展柜,或者在不同 的系统之间随意交换硬盘。具体参见第十四章第 8 节。 4) 在没有参考任何 IBM 官方服务文档或微码说明文件的情况下,不规范的对存储系 统进行微码的升级,甚至降级。具体参见第八章和第九章 5) 对存储子系统进行“Reset Configuration”等破坏性操作。具体参见第十四章第 14 节。 6) 在没有参考任何 IBM 官方服务文档的情况下,对处于故障状态的存储进行了一些 不规范的修复操作。 7) 在进行所有维护操作之前,没有收集 ASD 并提前检查所有的相关隐患,导致在维 护过程中触发了相关的隐患。具体参见第十四章第 2 节。 8) 存储系统没有冗余的配置方案。例如每台主机只有一条光纤连接存储;或者机头和 扩展柜之间只安装了一条光纤等等。 2.在所有维护之前,都必须收集ASD并提前检查所有潜在的隐患。 任何变更维护操作之前,都要收集一份 All Support Data。建议客户定期收集 All Support Data。 1) 控制器微码是不是有重大隐患的版本? 06.23.05.00: 隐患一:当某个控制器内存校验出错时,故障控制器无法正确的被隔离 offline,从而导致逻 辑盘 LUN 不能切换到好的控制器上,主机访问中断。 隐患二:DS4800 写缓存被禁用,主机写性能大幅度下降,从而影响业务。 07.10.23.00: 隐患一:更换故障硬盘后,之前已经接管的热备盘无法 CopyBack 隐患二:Media Scan 被自动禁用 说明网址: http://www-947.ibm.com/systems/support/supportsite.wss/docdisplay?lndocid=MIGR-5074661& brandind=5000028 07.36.08.00/07.36.12.00: 在发生任何逻辑配置(创建,删除或扩展 Array/Lun/Mapping,实施 Flash Copy/RVM 等等) 的变更时,由于微码隐患导致两个控制器不断重启,访问中断。如果当前微码处于这两个版 本,需要立即停止任何逻辑配置的变更,并且马上寻求 IBM 的帮助。

第 43 页 共 62 页

2) EXP 扩展柜的 ESM 微码版本有没有重大隐患? a. EXP710 的 ESM 的微码隐患(9681 以下版本) 网址: http://www.ibm.com/systems/support/supportsite.wss/docdisplay?lndocid=MIGR-5078207& brandind=5000028 故障现象: 当一块硬盘故障时,MEL 里面显示 Fiber Channel Link up 和 Link down 的 Event,发生大面 积的多块硬盘的同时故障,客户数据访问中断。 故障的预防方法: 尽快将受影响的ESM的微码升级到9681或以上 b. EXP810 和 EXP420 的 ESM 的微码隐患(98D0 以下版本) 网址: http://www.ibm.com/systems/support/supportsite.wss/docdisplay?lndocid=MIGR-5078207& brandind=5000028 故障现象: 当一块硬盘故障时,MEL 里面显示 Fiber Channel Link up 和 Link down 的 Event,发生大面 积的多块硬盘的同时故障,客户数据访问中断。 故障的预防方法: 尽快将受影响的ESM的微码升级到98D0或以上 3) DDM 的微码版本是否存在重大隐患 a. 型号为 HUSxxxxxxFLF21 的 DDM 的微码隐患(JFQ3 和 JFQ4 版本) 故障现象: 当进行DS4300控制器的热插拔操作(例如在线更换控制器电池,在线更换控制器)的时候, 出现了大面积的多块硬盘亮黄灯, 被标示为"Failed"状态。 Array 变成Offline, 客户生产中断。 问题说明网址: http://www.ibm.com/systems/support/supportsite.wss/docdisplay?brandind=5000008&lndoci d=MIGR-5072364 故障发生条件: 1. 目前只在DS4300基本柜的硬盘里面发生 2. 进行DS4300控制器的热插拔操作(例如在线更换控制器电池,在线更换控制器) 故障的预防方法: 1. 在计划进行DS4300控制器的热插拔操作的时候,检查所有DDM硬盘的微码是不是 JFQ3/JFQ4 2. 如果发现DDM硬盘的微码是JFQ3/JFQ4版本,一定要先升级DDM的微码到JFQ8版本,才 能进行DS4300控制器的热插拔操作 3. 因为DDM硬盘微码的升级必须停止客户数据访问,因此必须安排停机时间。所以强烈建 议同时将DS4300控制器及ESM微码升级到相应的最新版本。 4. 对于现有的DS4300,建议检查DDM的微码是否是JFQ3/JFQ4,如果发现就尽早安排时间 升级。 5. 对于DDM 微码JFQ3,该版本存在严重问题,所有的DS4000/DS5000系列都有进行升级, 不只是DS4300.
第 44 页 共 62 页

b. 型号为 MAX3036FD, MAX3073FD, MAX3147FD 的 DDM 的微码隐患(S707 版本) 故障现象: EXP810 和 DS4700 的 多块硬盘被错误的标示为“Failed”状态,导致客户生产中断。 受影响的型号: 2007年2月以后出厂的型号为MAX3036FD, MAX3073FD和MAX3147FD的硬盘, 微码为S707 故障的预防方法: 尽快将受影响的DDM的微码升级到S708 网址: http://www.ibm.com/systems/support/supportsite.wss/docdisplay?brandind=5000008&lndoci d=MIGR-5071786 c. 类型为 ST31000340NS,ST3250310NS,ST3500320NS,ST3750330NS 的 SATA 硬盘 的微码隐患(微码版本为 BB10) 故障现象: 很容易在关机重启后发生多块硬盘同时损坏的情况 受影响的 FRU 号: "ST3500320NS 39M4557 BB10 500GB EXP810/DS4700 专用 "ST3500320NS 42D0392 BB10 500GB EXP420/DS4200 专用 "ST3750330NS 43W9715 BB10 750GB EXP810/DS4700 专用 "ST3750330NS 43W9720 BB10 750GB EXP420/DS4200 专用 "ST31000340NS 44X2459 BB10 1TB EXP810/DS4700 专用 "ST31000340NS 44X2455 BB10 1TB EXP420/DS4200 专用 故障的预防方法: 尽快将受影响的 DDM 的微码升级到 BB12 4) 要特别注意前面板右下方的(2GB/4GB)速率开关,是否处于正确的位置。速率开关处 于 4GB 位置时,2Gbps 的硬盘将不能被识别;相反速率开关处于 2GB 位置时,4Gbps 的硬盘是可以使用的,但是性能将会下降。这种情况比较容易被忽视。速率开关的更改 需要关机下电。注意:所有 3Gbps 的 SATA 硬盘,都推荐运行在 4Gbps。 5) 如果不在现场,我们可以通过对照 ASD 里面的 Profile 和 ESM/硬盘的微码 readme 文 件来确认当前硬盘的实际运行速率是否正确: 在 Profile 的 “DRIVES------------” 位置, 会看到所有硬盘的槽位, 状态, 容量, 速率, PRODUCT ID 和微码版本,范例(DS4700)如下:
TRAY, SLOT STATUS 85, 1 85, 2 85, 3 85, 4 85, 15 Optimal Optimal Optimal CAPACITY CURRENT DATA RATE PRODUCT ID 136.732 GB 136.732 GB 136.732 GB 2 Gbps 2 Gbps 2 Gbps 2 Gbps 2 Gbps ST3146855FC ST3146855FC MAX3147FD ST3146855FC ST3146954FC F F F F F FIRMWARE VERSION B977 B974 S708 B977 B90A

Optimal 136.732 GB Optimal 136.732 GB

“CURRENT DATA RATE”就是硬盘的当前运行速率,绝对不说明这块硬盘就是 2Gbps 的。 因此,要根据硬盘的“ PRODUCT ID ”去对照 ESM/ 硬盘的微码 readme 文件,例如 “ibm_fw_ds4kesmhdd_1.68_anyos_anycpu.txt” ,文件中一些 4Gbps 的硬盘列表如下: ST336854FC B90A (36G/15Krpm/4Gbps)
第 45 页 共 62 页

ST373554FC ST3146954FC MAX3036FD MAX3073FD MAX3147FD

B90A B90A S708 S708 S708

(73G/15Krpm/4Gbps) (146G/15Krpm/4Gbps) (36G/15Krpm/4Gbps) (73G/15Krpm/4Gbps) (146G/15Krpm/4Gbps)

ST373455FC B977 (73G/15Krpm/4Gbps) ST3146855FC B977 (146G/15Krpm/4Gbps) ST3300655FC B977 (300G/15Krpm/4Gbps) 注意:所有 3Gbps 的 SATA 硬盘,都推荐运行在 4Gbps。 由上可知,范例里面的硬盘,都是由于错误的速率开关而运行在了 2Gbps 的速率。 6) 要特别注意确认(2GB/4GB)速率开关是否被在线拨动过。由于速率开关的更改需要关 机下电,所以在线变更速率开关并不能改变当前硬盘的运行速率,反而会造成很多不可预 期的严重故障,例如硬盘更换失败,以及控制器反复重启等。 我们可以通过 ASD 里面的 Profile 来确认当前硬盘的运行速率,再对照现场机器上速率 开关的实际位置来确认开关是否正确。由于 Profile 里面无法看出当前速率开关的位置,所 以一定要到现场才能确定。 例子 1: 通过 Profile 确认硬盘运行在 2Gbps,但是通过 ESM/硬盘微码 readme 文件确认硬盘都是 4Gbps 的。速率开关目前处于 2Gbps。 结论:速率开关处于错误的位置,需要停机来更正速率开关。 例子 2: 通过 Profile 确认硬盘运行在 2Gbps,但是通过 ESM/硬盘微码 readme 文件确认硬盘都是 4Gbps 的。速率开关目前处于 4Gbps。 结论:速率开关一开始是处于 2Gbps 的错误位置,后来又被在线的改到 4Gbps,需要重启机 器来更正。 例子 3: 通过 Profile 确认硬盘运行在 4Gbps,通过 ESM/硬盘微码 readme 文件确认硬盘都是 4Gbps 的。但是速率开关目前处于 2Gbps。 结论:速率开关一开始是处于 4Gbps 的正确位置,后来又被在线的改到 2Gbps,需要重启机 器来更正。 7) 磁盘扩展柜的光纤连线是否符合 IBM 的规范。 特别是 DS4800, 正确的扩展柜连接如下: DS4800 的每个控制器上有 4 个 Drive Port,分别对应两对 Channel,每对 Channel 里面包含 了两个环路,如下图: Channel 1 和 Channel 3 为一对,光纤连接方式如下: 控制器 A 的 Port4-->扩展柜-->控制器 B 的 Port1 控制器 A 的 Port3-->扩展柜-->控制器 B 的 Port2 Channel 2 和 Channel 4 为一对,光纤连接方式如下: 控制器 A 的 Port2-->扩展柜-->控制器 B 的 Port3 控制器 A 的 Port1-->扩展柜-->控制器 B 的 Port4

第 46 页 共 62 页

正确的磁盘扩展柜连线方式范例可以查阅相应型号的“Installation,User's and Maintenance Guide”的第 3 章“Cabling the Storage Subsystem”。 注意:在控制器有冗余的 MiniHub 或 SFP 的条件下,强烈建议将多个扩展柜连接在多个冗 余环路上,尽量不要将所有的扩展柜串联在一个环路里。 8) 扩展柜的 ID 设置有没有符合 IBM 的规范(参见第 6 节) 9) Media Scan 和读写缓存的设置是否正确 全局的 Media Scan 选项以及每个逻辑盘 LUN 的 Media Scan 选项是否已经打开 (Media Scan with Redundancy Check 不需要打开) 读写缓存选项是否已经打开,写缓存镜像是否已经打开 10) DS4000/DS5000 的逻辑盘 Mapping 有没有问题,有没有按照相应的主机类型创建 Host Group, 并且将逻辑盘的 Mapping 关系放到相应 Host Group 里面, 而不是使用 Default Group。 (DS4300 Base 型号除外,因为其标配没有 Storage Partition License,因此只能使 用唯一的 Default Group。但是必须把 Default Host Type 改成相应的主机类型) 11) DS4000/DS5000 中所有没有光纤连接的 GBIC/SFP 是否已经被拔除 (参见第 7 节)

12) 主机、光纤交换机和 DS4000/DS5000 之间的光纤连线是否符合 IBM 的规范 AIX 环境下正确的连线方式范例请参阅红皮书“IBM Midrange System Storage Implementation and Best Practices Guide SG24-6363-04”第 12 章“DS5000 with AIX, PowerVM, and PowerHA” 13) 只要使用了光纤交换机, 做 Zone 是强制要求。每一个 Zone 必须只包含两个成员, 一个对应主机的一张光纤卡的一个端口,另一个对应 DS4000/DS5000 的一个控制器的一个 端口。

第 47 页 共 62 页

3.逻辑盘不在最优路径“Logical Drive Not On Preferred Path” “Logical Drive Not On Preferred Path” 是DS4000/DS5000系列中最常见的问题。这个问题 指的是DS4000/DS5000的逻辑盘(LUN)没有挂在原本所属的控制器下。因为从主机到 DS4000/DS5000往往有2条光纤通道,所以这个问题并不会影响数据访问。 下图是一个典型的主机和DS4000/DS5000系列之间的连接拓扑示意图。如图所示,原本挂在 控制器 B下的逻辑盘 LUN31,挂在了控制器 A下

2) 原因分析:(主要有6点) 在AIX环境下,主机到DS4000/DS5000的通道切换使用RDAC模式,是由安装在主机操作系 统上的RDAC驱动程序控制的。因此当发生逻辑卷LUN的切换时,原因往往来自 DS4000/DS5000外部,而不是内部。 可能原因如下: a.从主机的光纤卡到Logical Drive的光纤物理链路有问题。表现如下: .主机的光纤卡HA1损坏 .主机的光纤卡HA1到光纤交换机fabric1的光纤有问题 .光纤交换机fabric1异常掉电或硬件故障 .光纤交换机fabric1的GBIC/SFP有问题 .光纤交换机fabric1到Controller B的光纤有问题 .DS4000/DS5000控制器 的GBIC/SFP有问题 b.P-Series主机的dar0的虚拟设备配置有问题,例如运行"fget_config -Av"时显示"dac0 active dacNONE active" c. 光纤交换机fabric1的Zone设置有问题。正确的设置是必须创建“一对一”的Zone,使主机 的光纤卡HBA和DS4000/DS5000控制器的主机端口Host Port一一对应。 d. 主机光纤卡HBA和DS4000/DS5000控制器的主机端口Host Port之间的光纤连线方式不正 确, 没有符合IBM的规范。 e. DS4000/DS5000内部的Mapping问题, 包括是否建立AIX的Host Group,以及是否把Default Host Type改成“AIX”(适用于只有Default Group的情况),Linux 主机的Host Type是否正确,等等。 f.控制器发生过重启,或者控制器已经Offline(离线)

第 48 页 共 62 页

3) 检查的确认方法:(主要有8点) a.确认从主机的光纤卡到逻辑盘Logical Drive的物理链路是完全正常的。 登陆上相应的光纤交换机,如果是OEM博科的交换机,可以运行"switchshow",确保在相应 的主机光纤卡端口和DS4000/DS5000控制器端口上都能看到WouldWide Name(WWN)。另 外,通过“uptime”和“errdump”命令,确认交换机正常。 b.或者查看光纤交换机相应的主机光纤卡端口和DS4000/DS5000控制器端口的状态灯: Port Status LED 绿光常亮(不能是橙光常亮或熄灭/慢闪) c.登陆主机,运行“fget_config -Av”确认dar的虚拟设备配置正常: .只有一个dar0和一对dac0/dac1设备 (每一台DS4000对应一个dar设备和2个dac) .显示"dac0 active dac1 active"(如果不正常,必须安排停机时间,运行以下命令将所有 hdisk/dar/dac设备删除,并重新配置dar和dac设备) rmdev –dl –darX –R (rmdev all hdisks) rmdev –dl fcsX –R (rmdev all dac) cfgmgr –v d. 确认光纤交换机的Zone设置没有问题。也就是说,每个Zone里面只能包含一个主机的光 纤卡,最推荐的方法是每个Zone里面只包含两个成员,主机光纤卡的一个端口和外设存储 的一个端口。 e. 确认主机光纤卡 HBA 和 DS4000/DS5000 控制器的主机端口 Host Port 之间的光纤连线方 式是正确。 关于正确的连线方式, 请参阅红皮书“IBM Midrange System Storage Implementation and Best Practices Guide SG24-6363-04”第 12 章“DS5000 with AIX, PowerVM, and PowerHA”。 f.在SM客户端管理软件里面确认DS4000/DS5000的控制器状态正常 g.检查DS4000/DS5000内部的Mapping是否正确,包括 是否把LUN 放到Host Group或者独立Host里面(除了DS4300,其余机型禁止使用Default Group) 是否把Default Host Type改成实际访问的主机类型(适用于只能使用Default Group的 DS4300)。 在AIX或者是Linux主机环境下,名为“Access Logical Drive”的mapping(lun 31)是否已删除。 h. 确认 Linux主机的host type是否正确。 故障现象: 1.SM报逻辑盘不在最优路径“Logical Drive Not On Preferred Path” 2.发现部分LUN在两个控制器之间来回切换 3.由于LUN不断的在来回切换,导致相关主机的访问非常缓慢。在极端情况下,可能会 连SM客户端软件都无法连上控制器。 解决方法: 1. 首先确认有没有Linux类型的主机访问 2. 如果有Linux主机,就要确认Host Type是否设置正确 Lunix有两种方式来实现路径冗余,要求的host type是不一样的: RDAC 双通道软件(主流方式) ---> 要求Host Type必须设置成LNXCL(旧版微码)或者是 LNXCLVMWARE(新版微码)。这两种host type的ADT/AVT是Disable HBA Failover Driver ---> 要求Host Type 必须设置成Linux。这种host type的 ADT/AVT模式是Enable。

第 49 页 共 62 页

如何确认Linux主机已安装并正在使用RDAC?: 首先用“lsmod”命令检查RDAC的相关Module是否已经安装 [root@DBServer1 ~]# lsmod 下面这三个Module entries是必须的: mppVhba mppUpper lpfc (or qla2xxx for BladeCenter configurations) 其次使用相关MPP(RDAC)命令确认逻辑盘是否已经被正确识别: [root@DBServer1 ~]# mppUtil –a Hostname = DBServer1 Domainname = (none) Time = GMT 10/07/2009 10:39:15 Info of Array Module's seen by this Host. ID 0 WWN 600a0b8000565560000000004aaee0e6 FC Type Name

CZBank_OA_DS4700

[root@DBServer1 ~]# mppUtil –a CZBank_OA_DS4700 如果“lsmod”命令无法找到MPP相关的Module,“mppUtil”命令又找不到,那么就很可能没 安装RDAC。 目前在Linux主机环境中Lun在两个控制器之间来回切换的主要原因,是Linux主机用了 RDAC软件, 而SM里面的Host Type又被错误的设置成了“Linux”。 由于“Linux”类型具有欺 骗性,客户或BP往往会错误的在使用RDAC的情况下选择了“Linux”的Host Type。 解决的方法就是把host type改成LNXCL(旧版微码)或者是LNXCLVMWARE(新版微码)。如 果不改host type,也可以运行“DisableAVT_Linux.script”脚本去Disable ADT/AVT,效果是一 样的。脚本在微码或者SM软件的Zip包里面。 注意事项: 1. 无论是改host type还是运行脚本,都建议在停止相关主机访问的情况下进行。 2. 在VMware ESX Server环境下,host type也必须选择LNXCL(旧版微码)或者是 LNXCLVMWARE(新版微码) 参考文档: Redbook: IBM System Storage DS4000 and Storage Manager V10.30 SG24-7010-06 5.1.3 Installing DS4000 storage server software on a Linux System x host This Linux RDAC release does not support auto-volume transfer/auto-disk transfer (AVT/ADT) mode. AVT/ADT is automatically enabled in the Linux storage partitioning host type. Disable it by using the script that is bundled in the IBM Linux RDAC Web package or in the \Scripts directory of the DS4000 Storage Manager Version Linux CD. The name of the script file is DisableAVT_Linux.scr. 5.3.5 Configuring storage partitioning
第 50 页 共 62 页

If you attached a Linux system to the DS4000 storage server, you must remove the mapping of the access logical drive. Highlight the host or host group containing the Linux system in the Mappings View. In the right part of the window, you see the list of all logical drives mapped to this host or host group. To remove the mapping of the access logical drive, right-click it and choose Remove Mapping. The mapping of the access logical drive is removed immediately. IBM System Storage DS4000 Storage Manager Version 10 Installation and Host Support Guide for Windows 2000/Server 2003, NetWare, VMware ESX Server, and Linux GC27-2171-00 If you use the Linux host type as the host type for your Linux host partition, you must disable AVT/ADT as indicated in “Limitations” on page 91. You do not need to do this if you choose LNXCLVMWARE (also known as LNXCL) as the host type. This host type will set AVT/ADT to disable and enable propagated reservation. i.如果是不久前更换了控制器,应使用“lsattr –El dacX”命令检查主机的dac设备所对应的控 制器序列号,是否和当前Profile里面的真实的控制器序列号相吻合。如果不同,需要在主机 上把所有hdisk/dar/dac设备删除之后重新配置。

注意:在恢复之前,一定要确认从主机的光纤卡到Logical Drive的通道是完全正常的,只有 在完全确认上述几种故障都已经解决之后,才能实施恢复。否则后果一定是灾难性的!! 4) 恢复方法 a. 在Storage Manager客户端管理软件里面运行: 微码05.xx.xx.xx?SM08.xx.xx:Storage Subsystem --> Redistribute Logical Drives 微码06.xx.xx.xx?SM09.xx.xx:Advanced --> Recovery --> Redistribute Logical Drives b. 在Storage Manager客户端管理软件里面,更改每一个逻辑盘Logical Drive的所属控制器 菜单:Logical Drive-->Change-->Ownership/Preferred Path 4.Storage Manager客户端软件不能连接和访问DS4000/DS5000 的控制器 1) 首先排除网络方面的问题,例如网线,网口,Hub或者Switch的问题等等 2) 由于DS4200/4700/4800的两个控制器是以相反的方向(相互旋转180度)放置的(标 签却都是朝上的) ,因此两组以太网口,主机和磁盘柜光纤端口也是相反的,要注 意别插错网口。 3) 如果控制器Ping不通,首先按照第二章的说明,看看控制器的两位数字LED的显示 是否正常,是不是能正常的显示出控制器的Enclosure ID(默认是85)。如果显示错 误代码,例如“88”(Offline)或者“L3”等,就按照控制器故障的情况处理。 4) 如果控制器的两位数字LED的显示在循环变化,或者Ping的时通时断,这时候可以 通过串口连上控制器,观察并捕获屏幕的输出。如果输出明显的循环不止,那么控 制器很可能是在不断重启。客户就要联系IBM解决了。 5) 如果SM通过以太网的out-of-band方式连不上,还有一种可能是有主机安装了SM软 件,通过光纤SAN使用in-band方式管理DS4000/DS5000,例如AIX和Windows,都 可以使用In-band方式。需要工程师去排查。 6) 如果控制器能Ping通但是Storage Manager连不上,就需要联系IBM解决。 7) 如果能安排停机时间,重启机头是最有效的解决方法。

第 51 页 共 62 页

5.在AIX主机环境下,几种典型FCP_ARRAY_ERR故障的处理 本 Tips 只分析了几种特定类型的 AIX FCP_ARRAY_ERR 的报错,并没有覆盖所有的错误, 请仔细查看并严格对号入座。 1) FCP_ARRAY_ERR2 和 FCP_ARRAY_ERR25 (控制器微码是 07.XX) 环境:控制器的微码是 07.XX 故障现象: 只在AIX主机启动或者运行cfgmgr的时候,AIX的 errpt 里面会报以下两种错误: FCP_ARRAY_ERR25 CACHED DATA WILL BE LOST IF CONTROLLER FAILS FCP_ARRAY_ERR2 ARRAY OPERATION ERROR 分析: 该错误信息是由于 AIX Driver的SCSI 指令与新的控制器微码不兼容而引起的。 因此以上报 错完全是误报,不会影响DS4000的正常运行和主机的数据访问。 解决办法: 对于FCP_ARRAY_ERR25,AIX相应的版本要安装以下PTF: 5200-10 - use AIX APAR IZ16769 5300-06 - use AIX APAR IZ16770 5300-07 - use AIX APAR IZ16771 5300-08 - use AIX APAR IZ19345 5300-09 - use AIX APAR IZ16977 6100-00 - use AIX APAR IZ16772 6100-02 - use AIX APAR IZ17191 对于FCP_ARRAY_ERR2,AIX相应的版本要安装以下PTF: 5200-10 - use AIX APAR IZ28278 5300-06 - use AIX APAR IZ25679 5300-07 - use AIX APAR IZ22448 5300-08 - use AIX APAR IZ24646 5300-09 - use AIX APAR IZ23299 6100-00 - use AIX APAR IZ27445 6100-01 - use AIX APAR IZ27264 6100-02 - use AIX APAR IZ23487 2) FCP_ARRAY_ERR6 和 FCP_ARRAY_ERR10(控制器微码是 06.60) 环境:控制器的微码是 06.60 故障现象: 只在AIX主机启动或者运行cfgmgr的时候,,AIX的 errpt 里面会报 FCP_ARRAY_ERR6 "SUBSYSTEM COMPONENT FAILURE"和 FCP_ARRAY_ERR10 "ARRAY CONFIGURATION CHANGED"的错误。 分析: 该错误信息是由于 AIX Driver的SCSI 指令与新的控制器微码不兼容而引起的。 因此以上报 错完全是误报,不会影响DS4000的正常运行和主机的数据访问。

第 52 页 共 62 页

解决办法: 临时解决办法: 通过Storage Manager运行以下脚本,把控制器NVSRAM的某个标志位改成非0的值。 这个 操作不需要重启控制器,可以在线执行。 set controller [a] HostNVSRAMBYTE [6,0x27]=0x1; set controller [b] HostNVSRAMBYTE [6,0x27]=0x1; 最终解决办法: AIX 的PTF已经发布 5300-08 - use AIX APAR IZ48394 5300-09 - use AIX APAR IZ50734 5300-10 - use AIX APAR IZ69249 5300-11 - use AIX APAR IZ65059 5300-12 - use AIX APAR IZ62523 6100-00 - use AIX APAR IZ48394 6100-01 - use AIX APAR IZ71837 6100-02 - use AIX APAR IZ71513 6100-03 - use AIX APAR IZ62251 6100-04 - use AIX APAR IZ64578 参考网址: http://www-01.ibm.com/support/docview.wss?rs=1203&context=SWGD0&context=SWG10&dc =DB550&q1=FCP&uid=isg1IZ48394&loc=en_US&cs=UTF-8&lang=en 3) FCP_ARRAY_ERR6 (控制器微码是 07.XX) 环境:控制器的微码是07.XX 故障现象: AIX 会不定期的报 FCP_ARRAY_ERR6 "SUBSYSTEM COMPONENT FAILURE"。 分析DS4000的Event Log(MEL), 发现DS4000有内部状态的变更, 例如管理网口网线的插拔, LUN Ownership的切换,LUN的创建和删除,LUN Mapping关系的创建和删除,甚至 “Description unknown”等等。而且,AIX报错的时间和DS4000 MEL提示变更的时间完全对不 上号,往往是变更发生过后一段时间AIX才报错。 MEL: 09-9-17 4:05:18 756 5802 Info 0/0/0 Ctr: A Management port link up 09-9-17 4:06:33 763 5023 Info 1/5a/0 RPC: assignVolumeOwnership RC: OK 09-7-1 15:30:37 825 5802 Info 0/0/0 Description unknown 分析: 这个报错只是表明DS4000内部状态有变更,不能称之为“报错”,不代表有硬件故障。这是 DS4000在微码07.XX以上的新特性。由于AIX只有在发起IO的时候,才会得知DS4000内部 状态的变更,所以这种“报错”相比起DS4000内部状态的变更,往往会滞后一段时间。 解决办法: 这只是一个提示信息,并不是一个报错信息。
第 53 页 共 62 页

4) FCP_ARRAY_ERR6 和 FCP_ARRAY_ERR16(控制器微码是 06.XX) 环境:控制器的微码是 06.XX 故障现象: 客户往往是首先从 AIX 的 errpt 里面发现有 FCP_ARRAY_ERR6 或 FCP_ARRAY_ERR16 的报错。把 snap 上传 PFE 网站之后,error log 的 Decode 结果里有以下一些典型状况: FCP_ARRAY_ERR6 ……....H PERM dac2 ASCASCQ:3FC7 FRU 06: FRU 80: FCP_ARRAY_ERR16 ……. H TEMP hdisk10 CACHE BATTERY CHARGE BELOW 87.5% DS4000/DS5000 的 MEL 的症状: 我们会看到 MEL 里面反复的在报“280D:Drive enclosure component failed or removed”然后 很快就恢复正常了,报“Drive enclosure component changed to optimal”。 分析: AIX 主机的报错“FCP_ARRAY_ERR6”和“FCP_ARRAY_ERR16”,是和 DS4000MEL 里面的 “280D”报错信息相对应的。从表面上看,是 DS4000 的电池有问题,但在低版本(06.23 以 下)的微码下,往往是微码的误报。尤其是微码版本在 06.1X.XX 的 DS4300。 解决办法: a.首先,在 SM 客户端检查“Recovery Guru”按钮,看看当前有没有电池或者其他非硬盘部 件的故障。也可以通过 All support data 里面的“recoveryGuruProcedures.html”文件来查看。 b.在 Profile 里面确认电源,风扇,ESM 和电池的当前状态。 c.如果当前电池的状态是“Failed”,就必须进行更换。 d.如果“Recovery Guru”按钮里面没有电池的报错,电池的状态也是好的,那么应该尽快 将控制器微码升到当前最新的推荐版本,ESM 的微码也必须相应升级。因为除了控制器微 码,ESM 微码也包含了关于误报 280D 错误的关键更新。 6.注意DS4000/DS5000 的扩展柜EXP的ID设置(同一个冗余环路内部的ID个位数字必须唯 一) IBM官方网站的说明: http://www-947.ibm.com/systems/support/supportsite.wss/docdisplay?lndocid=MIGR-5072698& brandind=5000028 以DS4800为例进行说明: 1. DS4800 的扩展柜连接方式 DS4800 的每个控制器上有 4 个 Drive Port,分别对应两对 Channel,每对 Channel 里面包含 了两个环路,如下图: Channel 1 和 Channel 3 为一对,光纤连接方式如下: 控制器 A 的 Port4-->扩展柜-->控制器 B 的 Port1 控制器 A 的 Port3-->扩展柜-->控制器 B 的 Port2 Channel 2 和 Channel 4 为一对,光纤连接方式如下: 控制器 A 的 Port2-->扩展柜-->控制器 B 的 Port3 控制器 A 的 Port1-->扩展柜-->控制器 B 的 Port4

第 54 页 共 62 页

2.具体的扩展柜的 Enclosure ID 设置特殊要求是:在一对 Drive Channel 内部,扩展柜的 ID 的个位数字不能相同,必须是唯一的。 请参照最新 的 DS4800 Installation,User's,and Maintenance Guide 的第 3 章(英文版 : GC26-7845-03,中文版:G151-0451-02,之前的旧版本关于 EXPID 设置部分的建议是错的) 正确的扩展柜 ID 设置如下(16 个扩展柜满配的情况) :

错误的扩展柜 ID 设置如下(16 个扩展柜满配的情况) : 由下可见,环路 1 和环路 2 上的扩展柜,ID 的个位数字是相同的(0,1,2,3)。而这两个环路, 属于同一对 Channel 1 和 3。环路 3 和 4 也有同样的问题。

3.错误的扩展柜 ID 设置会导致 DS4800 在光纤环路上使用“软寻址”方式,而不是“硬寻址” 方式,从而在光纤链路噪音大的情况下,可能造成多块硬盘被错误的标示为故障状态,从而 造成 RAID Offline 以及客户访问中断。 4.如果目前正在使用的 DS4800 存在错误的扩展柜 ID 设置,那么如果要修正,就必须安排 停机时间进行更改,步骤如下: 1)停止主机对 DS4800 的数据访问
第 55 页 共 62 页

2)按照正确的顺序关闭 DS4800 的电源(先关控制器,再关扩展柜) 3)按照上述建议更改扩展柜的 Enclosure ID 4)按照正确的顺序开启 DS4800 的电源(先开扩展柜,再开控制器) 7.拔除DS4000/DS5000 系统中所有未使用(没有光纤连接)的光电转换模块SFP 请将这些 SFP 拔出交给客户妥善保管。这些没有光纤连接的 SFP 不能安装在扩展柜上,它 们会导致光纤链路的不稳定。在 MEL Event Log 中,会发现有大量的“Fibre Channel Link Down”和“Fibre Channel Link Up”的提示信息。 8.特别注意:不规范的实施DS4000/DS5000 系统EXP扩展柜和物理硬盘的升级和迁移,可 能会造成客户数据丢失!!!! DS4000/DS5000 系列的 EXP 扩展柜和硬盘的升级和迁移有以下几种情况: 2) DS4000/DS5000 系统增加新的 EXP 扩展柜(升级) 3) DS4000/DS5000 系统增加新的物理硬盘(升级) 4) 将 一 个 或 多 个 EXP 扩 展 柜 , 从 一 个 现 有 的 DS4000/DS5000 系 统 迁 移 到 另 一 个 DS4000/DS5000 系统(迁移) 5) 将一块或多块硬盘,从一个现有的 DS4000/DS5000 系统迁移到另一个 DS4000/DS5000 系统(迁移) 以上工作必须严格按照最新版的 IBM 官方文档“IBM System Storage DS4000/DS5000 Hard Drive and Storage Expansion Enclosure Installation and Migration Guide”里面所规定的步 骤进行。该文档在公网可以下载。 下载地址: http://www-947.ibm.com/systems/support/supportsite.wss/docdisplay?lndocid=MIGR-57818 &brandind=5000028 其中一些重点注意事项如下: 1) 客户一定要提前备份数据,同时必须提前备份 DS4000/DS5000 的 All Support Data 2) 如果可以,尽量安排停机时间进行 3) 注意 DS4000/DS5000 控制器和 EXP 扩展柜 ESM 的微码是否是最新版本, 是否相互 支持,是否存在兼容性问题,可以参考微码的说明文件 4) 新的 EXP 扩展柜和现有系统的光纤速率的兼容性 5) 如果迁移后的系统是 FC/SATA 硬盘混用, DS4000/DS5000 系统是否有相应的 License 6) EXP 扩展柜的连线方式和 Enclosure ID 设置是否符合 IBM 的规范, 可以参考相关的 DS4000/DS5000 系统官方文档 7) 严格按照上述 “IBM System Storage DS4000/DS5000 Hard Drive and Storage Expansion Enclosure Installation and Migration Guide”里面所规定的步骤进行升 级。 8) 目前一个比较普遍的情况是,在严格按照官方文档进行升级的情况下,仍然有可能 会出现控制器无法识别新硬盘的情况。这是因为控制器微码版本 06.XX 和 07.XX 的磁盘数据结构互相不兼容,当发生以下其中一种情况时,新硬盘就会无法被控制 器识别:

第 56 页 共 62 页

情况一:新硬盘的数据结构是微码 06.XX 的,要加在控制器微码 07.XX 的机器上 情况二:新硬盘的数据结构是微码 07.XX 的,要加在控制器微码 06.XX 的机器上 如果发生以上情况,强烈建议先寻求 IBM 的技术支持,如果不规范的进行控制器微码 从 06.XX 到 07.XX 的升级,可能会造成客户原有数据的丢失! ! ! 绝对不能不做任何准备工作,直接在一台 DS4000/DS5000 上添加硬盘或者扩展柜! ! ! 或者在两台 DS4000/DS5000 之间迁移硬盘和扩展柜! ! ! ! 否则会造成客户原有数据的丢 失! ! ! 9.注意定期保存DS4000/DS5000 系统的All Support Data(ASD) DS4000/DS5000 的 All Support Data 里面记录了所有 Array 的配置信息和主机 Mapping 的 信息,在关键时刻对于客户的数据恢复有着非常重要的作用。 因此,工程师要有意识提醒客户定期自行保存 DS4000/DS5000 的 ASD(微码 05.XX 以下只 能保存 Profile) ,就像作系统备份一样。对于 VIP 客户,工程师应该定期为客户保存 ASD。 10.如何寻找DS4000/DS5000 的Recovery Profile 如果客户在故障前没有保存 ASD 或 Profile,那么我们就只能寻找 Recovery Profile 了。 方法如下: SM 客户端软件有一个功能,只要是在 SM 里被添加管理过的 DS4000 子系统,都会自动的 在 SM 客户端软件的安装目录里面留下一份 Recovery Profile。在 SM 里面删除子系统后, Recovery Profile 依然会保留。 因此必须要去寻找任何一台曾经通过 SM 访问过该 DS4000 子 系统的电脑,例如曾经到场做 call 的工程师的笔记本,客户的监控 PC,代理/集成商的笔记 本等等。 注意,如果 SM 客户端软件被卸载,那么 recovery file 的目录就会被删除了。 Recovery profile 的路径是: SM 客户端软件的安装目录\client\data\recovery 如果 SM 是安装在默认目录,那么路径是: C:\Program Files\IBM_DS4000\client\data\recovery 如下图,那些扩展名是 CSV 的 Excel 文件,就是 Recovery Profile。 例如“RECOV.600A0B8000114B700000000044B2F48C.csv”。文件里面记录了某台 DS4000 的 Array 和 LUN 的基本信息,我们称之为 recovery profile。 由于 recovery profile 里面并没有记录机器的序列号,我们可以通过 Profile 文件名里面的蓝 色的部分,也就是整个子系统的 WWN 来确定是哪一台 DS4000。另外 recovery profile 里面 也包含了两个控制器的序列号,在控制器未被更换的情况下,也可以用于对比查找。 Profile 里面的 子系统 WWN 例子如下: Feature enable identifier: 38363531390038363338360044B2F44F Storage Subsystem worldwide name (ID): 600A0B8000114B700000000044B2F48C Management software version: 09.16.G5.41

第 57 页 共 62 页

11.重要说明:绝对不能对处于“Degraded”状态的Array的故障硬盘使用Revive操作! 重要说明:绝对不能对处于“Degraded”状态的Array的故障硬盘使用Revive操作,否则会造成 客户的数据丢失! ! 需要强调的是,当 Array 变成 Degraded 状态时,主机的访问将会恢复。这时 Array 的成员硬 盘上将会有数据读写,而剩下的故障硬盘仍然处于被隔离的静止状态。也就是说,故障硬盘 上的数据,与其他恢复读写的成员盘上的数据,已经不一致了。同理,当最初发生硬盘故障 的时候,Array 很可能在短时间内处于 Degraded 状态,这时最初的故障硬盘里面的数据, 和其他成员盘的数据,也已经是不一致的了。 这时如果去 Revive 最后剩下的故障硬盘(也就是最初的故障硬盘) ,由于故障硬盘不作任 何数据校验就添加到 Array 里面,就会马上导致整个 Array 的数据混乱掉。 也就是说,整 个 Array 的所有数据都会由于不一致而 发生 Data Lost。 12.Recovery Guru 报“Individual Drive - Degraded Path”但硬盘位置是“Unknown” 环境: 控制器微码是 07.15 或 07.36,近期发生过硬盘更换 故障现象: Recovery Guru 报 一 个 标 题 为 “DEGRADED_DRIVE_PATH” 的 错 误 , 描 述 是 “Individual Drive - Degraded Path” ,表明某块硬盘有一个 channel degraded 。但是显示硬盘位置为 “Unknown”。 Failure Entry 1: DEGRADED_DRIVE_PATH Storage Subsystem: Unnamed Degraded drive paths: Channel: 1
第 58 页 共 62 页

Related drives: (Unknown ) Individual Drive - Degraded Path 分析: 这是一个误报,是控制器微码的 BUG,不会影响系统的正常运行。Fix 在 07.50.12.00 以上: - Fix 148711 (CL #WIC~147543) Change how recovery guru entries are removed for degraded ITNs. 临时解决办法: 安排一个停机时间,把机头重启一下(下电再上电) 。 永久解决办法: 安排停机时间升级微码到 07.xx 最新的推荐版本。 13.如何处理“Diagnostic Data Available”(DDC)问题 英文原文请参阅 RETAIN Tip H191692 网址: http://www-947.ibm.com/systems/support/supportsite.wss/docdisplay?lndocid=MIGR-50724 04&brandind=5000028 DDC 问题的概述: 从微码 06.12.27.00 开始,当控制器在发生一些罕见的故障的时候,微码会自动将控制器的 底层日志收集下来存储在控制器里面。与此同时,子系统的状态会从 Optimal 变成 Need Attention,前面板的故障灯会亮起,Recovery Guru 会提示一个“Diagnostic Data Available”的 故障。 处理方法: 9) 按照上述网址的说明步骤,通过运行以下脚本收集 DDC 数据 save storageSubsystem diagnosticData file=”<filename>.zip” <filename>.zip 可以自己指定,例如 ddc.zip DDC 的故障状态会在 DDC 数据被收集完成后消除,故障灯会熄灭。 10) 收集 All Support Data,联系原厂商报修。 11) 因为控制器只能存储一次异常故障的 Diagnostic Data,因此我们看到 DDC 的 报错的时候就要尽快将相关日志收集下来,否则在收集日志之前发生的第二次异常 故障,其底层日志就不能被记录了。 14.绝对不能在生产系统使用SM客户端管理软件的“Reset Configuration”功能 Storage Manager 客户端管理软件提供了一个“Reset Configuration”的高级功能。这个功能会 删除 DS4000/DS5000 系统里面所有的 Array/Lun 信息,并将所有配置恢复成出厂设置值。 因此我们绝对不能在生产系统里面执行“Reset Configuration”操作, 否则所有客户数据都会 丢失。 在执行“Reset Configuration”操作之后,SM客户端软件会出现“该操作会删除所有数据”的确 认提示,此时还可以决定是否继续,如下图:

第 59 页 共 62 页

万一由于人为误操作而执行了“Reset Configuration”, 那么只有在“Reset Configuration”操作之 前保存了DS4000/DS5000系统的Profile,All support data或Recovery Profile的情况下,才存在 理论上恢复数据的可能。 15.如何找到在DS4000 里面定义的LUN和AIX上hdisk的对应关系 在 DS4000 的维护过程中,经常需要找出 DS4000 的 LUN(也称之为 Logical Drive)和 AIX 里面看到的 hdisk 的对应关系。例如实施数据迁移,或者一些 LUN 的调整。错误的查 找结果,往往会导致数据丢失! ! ! 首先要强调的是, DS4K 并不具有类似于 DS8K/ESS SDD 命令“lsvpcfg”输出可以直接对 应到 LUN ID 的方法。 下面介绍 2 种找出 DS4000 的 LUN(也称之为 Logical Drive)和 AIX 里面看到的 hdisk 的对应关系的方法。第一种方法比较直观,适合现场工程师使用。由于 snap 中并不包含 fget_config 的输出,所以第二种方法比较适合分析收集的数据用,或者用做对第一种方法的 补充印证。 方法 1. 通过 AIX 上运行 fget_config –Av 命令输出, 比对 DS4K profile 中定义的 logical drive name: 譬如以下例子就是 AIX 上的 hdisk2 对应 DS4K 上得 erp LUN (SSID 0): # fget_config -Av ---dar0--User array name = '' dac0 ACTIVE dac1 ACTIVE Disk DAC LUN Logical Drive utm 31 hdisk2 dac1 1 erp <-- 此处输出表明 hdisk2 对应的 DS4K LUN 的
第 60 页 共 62 页

logical drive name 就是下面 DS4K profile 中的 “erp” hdisk3 dac1 0 oracle 需要注意的是,此方法具有一定局限性,譬如同一台 AIX 主机同时连接 2 台 DS4K,则这 两台 DS4K 上均可以有同一 logical drive name 的 LUN 定义。例如上例中的 erp,可以同时 存在于 2 台不同 DS4K 中,如果一台 AIX 主机同时连接了这 2 台 DS4K,则 fget_config 的 输出会造成混淆。建议此时通过辨别所属不同 dar,dac 来区分,或者通过下面介绍的方法 2 来进行互相印证。 方法 2. 通过 DS4K 上 profile 里面 LUN 的 Logical Drive ID 和 AIX 上 lsattr -El hdiskX 中 的 ieee_volname 输出比对 首先,在 Profile 里面可以看到, LUN : lpar-A1 在 DS4000 上的 Logical Drive ID 是 60:0a:0b:80:00:29:9e:92:00:00:05:31:46:bb:a0:d6 Profile: LOGICAL DRIVE NAME: lpart-A1 Logical Drive status: Optimal Capacity: 436.231 GB (468,399,472,640 Bytes) Logical Drive ID: 60:0a:0b:80:00:29:9e:92:00:00:05:31:46:bb:a0:d6 Subsystem ID (SSID): 0 Associated array: 1 RAID level: 1 然后,运行“lsattr –El hdiskX”命令(或者查看 snap 里面的“general.snap”文件,也可以得到 “lsattr –El hdiskX”命令的结果) ,查看其中的“ieee_volname”项输出,这个“ieee_volname”项, 就是 Profile 里面可以看到的 Logical Drive ID 譬如以下例子,DS4K 上的 lpar-A1 (SSID 0) 对应的就是 AIX 上的 hdisk2: Logical Drive ID: 60:0a:0b:80:00:29:9e:92:00:00:05:31:46:bb:a0:d6 ieee_volname 600A0B8000299E920000053146BBA0D6 ..... lsattr -El hdisk2 ..... PR_key_value none Persistant Reserve Key Value True cache_method fast_write Write Caching method False ieee_volname 600A0B8000299E920000053146BBA0D6 IEEE Unique volume name False lun_id 0x0000000000000000 Logical Unit Number False max_transfer 0x100000 Maximum TRANSFER Size True prefetch_mult 1 Multiple of blocks to prefetch on read False pvid 00c435bf5116497f0000000000000000 Physical volume identifier False q_type simple Queuing Type False queue_depth 10 Queue Depth True raid_level 1 RAID Level False reassign_to 120 Reassign Timeout value True
第 61 页 共 62 页

reserve_policy rw_timeout scsi_id size write_cache

single_path 30 0x10000 446700 yes

Reserve Policy Read/Write Timeout value SCSI ID Size in Mbytes Write Caching enabled

True True False False False

16.DS5000 维护注意事项 “DS5000” 所 指 的 是 DS5100/DS5300 ( 1818-51A/53A ) , DS5020 ( 1814-20A ) , EXP520 (1814-52A) ,EXP5060(1818-G1A) 关机过程大不同: DS5000的关机流程和DS4000是不一样的: 关闭两个电源的开关 ----> 控制器缓存(Cache)中的数据自动备份到控制器内部的闪存 (USB Flash)中,控制器的LED 交错的显示 “os”和“bb” ---> 控制器电源在数据备份完成后 才会关闭 因为这个差异,DS5000的关机过程耗时比较长, 大概5-10分钟(控制器的LED会交错的显 示“os”和“bb”),关机后,控制器的代码和电源灯会熄灭。 在DS5000按下电源按钮关机后, 在代码熄灭和所有电源灯熄灭前绝对不能进行任何操作! ! !

第 62 页 共 62 页


相关文章:
联想为什么要收购IBM—PC
答:笔者认为联想收购 IBM-PC 的原因有以下几个: 1) 联想需要摆脱经营的困境: 从 2001 年开始,联想开始面临国内 PC 市场饱和,增长缓慢的情势, 在竞争中,联想...
联想并购IBM后的资源整合
联想并购 IBM 后的资源整合摘要: 并购是我国企业国际化的捷径。 联想并购 IBM PC 是近几年我国企业跨国并购的典范, 其并购的主要动机是回归主业及获取国际一流...
IBM员工手册
目录概述 您的公司 您的工作和薪酬 您的工作守则 您的福利计划 概述本手册向员工介绍公司体制,福利待遇和其他与工作有关的重要事项。 本手册中的各项规定和计划...
IBM逻辑测试题
IBM逻辑测试题_IT/计算机_专业资料。IBM逻辑测试题 逻辑试题 IBM 逻辑试题 IBM 面试题(附带所有答案) 1,分金条问题: 你让某些人为你工作了七天, 你要用一根...
IBM组织结构变革分析
国际 商业机器公司(以下简称 IBM),1911 年创立于美国,是目前全球最大的信息技术和业 务解决方案公司,业务遍及一百多个国家和地区.众所周知.IBM 在过去的九十多...
联想并购IBM PC业务案例分析
联想并购 IBM PC 业务案例分析铺垫:一、投资投资是经济主体(国家、企业和个人)以获得未来收益为目的,将一定数量的资产投入 某种对象或者事业,以取得一定经济收益或...
IBM中 SWG STG简介
ISU (行业销售部门) – Client Representative 针对不同行业(金融、电信、零售、政府、工业)的大客户进行 IBM 全线产品 及服务的销售;作为客户的主要联络人,维护...
IBM P550小型机配置ASMI管理
IBM P550小型机配置ASMI管理_IT/计算机_专业资料。IBM P5 高级系统管理 ASMIASMI 简介 高级系统管理界面(Advanced System Management Interface 简称 ASMI) 是由 IBM...
IBM的培训体系 - 人力资源
IBM的培训体系 - 人力资源_合同协议_表格/模板_应用文书。人力资源管理IBM 的培训体系 IBM 的培训体系 信息产业在 20 世纪的最后一幕,引发了最为引人注目的技术...
IBM小型机日常维护
IBM小型机日常维护_IT/计算机_专业资料。IBM小型机日常维护 小型机日常维护 第一篇:日常维护部分 第二篇:故障处理部分 第一篇 日常维护部分 目第1章 1.1 1....
更多相关标签: