Resum
Tipus | Actuació |
Inici | 2024-06-12 20:39 (UTC) |
Final | 2024-06-12 21:23 (UTC) |
Tíquet | #1111 |
Alertes | Sí |
Participen | @evilham, roger.garcia, @exopedro, @dyangol |
Impacte | microtalls |
Reporten | @evilham amb supervisió de @exopedro |
Actualitzarem els Switchos core i redundats de la eXO i del rack en Datacenter (6 switchos en total).
Pla d’actuació
- Actualització switchos eXO de 7.10.1 a 7.15.1:
- SW3
- SW4
Actualització switchos rack glutec:cancel·lada per prudència: es vol veure què tal va aquesta versió, i si va bé llavors actualitzar els altres-
SW1 -
SW2 -
SW3 -
SW4
-
Línia de temps
Tots els temps en UTC.
- 20:39 INICI ACTUACIÓ
- 20:40 @dyangol reinicia SW2 per OS
- 20:43 el switch torna a estar operatiu i apliquem actualització firmware + nou reinici
- 20:44 SW2 torna a estar online
- 20:46 esperem estabilització (algunes alertes han saltat)
- 20:47 apliquem actualització SW3 per OS
- 20:49 segon reinici SW3 per firmware
- 20:53 esperem estabilització
- 20:53 aprofitem per comprovar l’anomalia amb els switchos
- 21:06 apliquem canvi de LACP a “short” (1 segon “short”, vs 30 segons “long”)
- 21:09 reinici SW2
- 21:13 reinici SW3
- 21:20 comprovacions connexió inter-rack (desconnectar cables fibra) → tot OK
- 21:23 FINAL ACTUACIÓ
En cada reinici abans d’aplicar LACP short s’ha generat una alerta, després d’aplicar-ho ja no. El petit tall baixa a uns pocs segons
Possible millora d’alertes
Alguns talls no han sigut detectat per les alertes, però cap soci s’ha queixat.
Conclusions
- Es valora com a positiva l’intervenció, la redundància dels switchos core sw2 i sw3 ha millorat.
Quà ha anat bé?
- @evilham i roger.garcia estaven desplaçats presencialment al datacenter bitnap, i això ha donat més confiança i seguretat en aquesta operació delicada (gràcies!!!)
Què no ha anat bé?
Estàvem cansadets, i això ens ha impedit acabar d’aprofitar més la intervenció:
- Cal revisar amb més cura els canvis resultants de configuració als commutadors
- Ens hem oblidat de fer una configuració de VLANs que era part del pla de treball
- Cal detallar més bé els plans de treball en el futur
En què hem tingut sort?
- La incertesa ha sigut baixa. Hem aplicat els canvis que volíem grans imprevistos ni variacions, hem aconseguit l’objectiu més important que desitjàvem i hem generat uns talls de servei molt petits per un manteniment tant delicat.
Enllaços a documentació rellevant
- Changelog 7.15.1 de 2024-Jun-07 15:49. En versions prèvies (fer click a expand) es veuen correccions a nivell de MLAG que és lo que fan molt aquests commutadors
lacp-rate
aquí, ho hem canviat del valor per defecte 30 (long) a 1 (short)