2024-06-12 22:39-23:23: Manteniment de Switchos core sw2 i sw3

Resum

Tipus Actuació
Inici 2024-06-12 20:39 (UTC)
Final 2024-06-12 21:23 (UTC)
Tíquet #1111
Alertes
Participen @evilham, roger.garcia, @exopedro, @dyangol
Impacte microtalls
Reporten @evilham amb supervisió de @exopedro

Actualitzarem els Switchos core i redundats de la eXO i del rack en Datacenter (6 switchos en total).

Pla d’actuació

  • Actualització switchos eXO de 7.10.1 a 7.15.1:
    • SW3
    • SW4
  • Actualització switchos rack glutec: cancel·lada per prudència: es vol veure què tal va aquesta versió, i si va bé llavors actualitzar els altres
    • SW1
    • SW2
    • SW3
    • SW4

Línia de temps

Tots els temps en UTC.

  • 20:39 INICI ACTUACIÓ
  • 20:40 @dyangol reinicia SW2 per OS
  • 20:43 el switch torna a estar operatiu i apliquem actualització firmware + nou reinici
  • 20:44 SW2 torna a estar online
  • 20:46 esperem estabilització (algunes alertes han saltat)
  • 20:47 apliquem actualització SW3 per OS
  • 20:49 segon reinici SW3 per firmware
  • 20:53 esperem estabilització
  • 20:53 aprofitem per comprovar l’anomalia amb els switchos
  • 21:06 apliquem canvi de LACP a “short” (1 segon “short”, vs 30 segons “long”)
  • 21:09 reinici SW2
  • 21:13 reinici SW3
  • 21:20 comprovacions connexió inter-rack (desconnectar cables fibra) → tot OK
  • 21:23 FINAL ACTUACIÓ

En cada reinici abans d’aplicar LACP short s’ha generat una alerta, després d’aplicar-ho ja no. El petit tall baixa a uns pocs segons

Possible millora d’alertes

Alguns talls no han sigut detectat per les alertes, però cap soci s’ha queixat.

Conclusions

  • Es valora com a positiva l’intervenció, la redundància dels switchos core sw2 i sw3 ha millorat.

Quà ha anat bé?

  • @evilham i roger.garcia estaven desplaçats presencialment al datacenter bitnap, i això ha donat més confiança i seguretat en aquesta operació delicada (gràcies!!!)

Què no ha anat bé?

Estàvem cansadets, i això ens ha impedit acabar d’aprofitar més la intervenció:

En què hem tingut sort?

  • La incertesa ha sigut baixa. Hem aplicat els canvis que volíem grans imprevistos ni variacions, hem aconseguit l’objectiu més important que desitjàvem i hem generat uns talls de servei molt petits per un manteniment tant delicat.

Enllaços a documentació rellevant

  • Changelog 7.15.1 de 2024-Jun-07 15:49. En versions prèvies (fer click a expand) es veuen correccions a nivell de MLAG que és lo que fan molt aquests commutadors
  • lacp-rate aquí, ho hem canviat del valor per defecte 30 (long) a 1 (short)

Accionables

  • Es manté el ticket d’intervenció en obert perquè allà vàrem definir que també faríem el canvi de configuració de la VLAN → #1111
  • Revisar canvis aplicats als commutadors → #1112