TB2 HCI交换机升级Issue Lesson Learn¶
事故概述¶
Y25国庆/Y26元旦期间,Dell工程师对TB5/TB2集群的2台25G交换机进行了固件升级(通过重装OS的方式),过程中遇到了多种异常,导致TB2/TB5集群中的虚拟机异常迁移、系统中断以及业务短时间不可用。
-
Y25国庆TB5-Switch维护概述 (在线升级版本)
-
国庆期间Dell工程师升级交换机前,未进行HCI线路(Active/Standby)确认
- 直接按顺序从
交换机01->交换机02的顺序进行升级 - 升级
交换机01时,在TB5集群的所有虚拟机全部down机,并在TB2开启副本 - 造成M360业务(全球)/IDM无法访问
事后后台工程师分析确认事故原因为:HCI的vSAN网络Active链路接入的是
交换机01,HCI的自动故障切换是基于链路状态,因此不会自动將线路切换到Standby
-
Y26元旦TB2-Switch维护概述 (重装OS升级版本)
-
鉴于国庆升级异常,Y25/12S有对HCI健康度、网络链接进行检查(有发现vSAN的HA链路异常:TB2的vSAN两路线路均接到同一台交换机)
- Y25/12E针对链接无HA的的配置进行HCI配置調整,以确保HCI所有网络的HA线路分别接入2台交换机,同步找出Active/Standby交换,以便元旦升级确定交换机升级先后顺序(
交换机01->交换机02) - 元旦期间Dell工程师升级交换机前,未进行HCI线路(Active/Standby)确认。按DELL工程师的建议确定交换机升级顺序
交换机02->交换机01(未进行现场确认,实际升级顺序应该为交换机01->交换机02) - 升级前Dell工程师建议需要先断开
交换机01和交换机02互联的VLTi线 (断开VLT线后,TB2集群虚拟机全部down机并在TB5开启副本) - 升级
交换机02时,发现VC无法访问/同时财务反馈盘点系统无法使用(IDM无法登陆) - Dell工程师协助排查問題,建议將
交换机02上的所有光纤线全部拔出(拔线后集群逐渐恢复)
经验教训¶
-
升级前的沟通与计划需细化:
-
优化升级计划,提前做好充分的**风险评估**和预案,确保与所有业务方沟通清楚升级操作的时间规划和可能的影响。
-
Dell在准备阶段及执行阶段或有人员变更,就确认交接情况并与用户(SE)确认交接状况。
-
后续对HCI做维护前应先review 《HCI(含对应交换机)维护必读》,避免出现相同的异常情况。
-
对业务部门进行**提前风险告知**,选择业务低峰期执行操作,尽量避免对生产业务的干扰。
- 测试与应对计划完善:
-
在生产环境升级前,需进行严格的升级验证和**模拟故障测试及配置备份与还原验证**,确认升级方案的有效性和可行性。
-
制定详细的**升级失败回滚方案(即使原厂执行,也需要SE审核认可后再执行)**,以便在故障发生时快速恢复系统状态。
-
在升级前置放备件交换机或其他冗余设备,确保换件需求能得到低延迟响应(确保库存备件与现场维护数量相同)。
- 维护节点的操作性验证:
- 在执行维护前,提前对集群中各节点的运行状态进行**健康检查**,特别是容量评估、网络连通性等关键性参数必须符合规范。
- 持续提升与供应链优化:
- 与设备供应商保持密切沟通,明确SLA服务响应时间,加强供应商对于关键部件更换的应急预案,提高现场硬件更换效率。