2025-05-19 22:30 - 2025-05-20 00:30 ACTUACIÓ: actualització router ix2

ACTUACIÓ actualització router ix2: 2025-05-19 22:30 - 2025-05-20 00:30

Resum

Tipus Actuació
Inici 2025-05-19 22:30 (CEST)
Final 2025-05-20 00:30 (CEST)
Tíquet #1183, #1184
Alertes N/A
Participen @evilham, @dyangol, glutec
Impacte Durant la finestra d’actuació es preveu un petit zero de connectivitat (radio, FTTH i datacenter) de màxim 15 minuts, hi poden haver un parell de microtalls prèviament
Reporten @evilham

Relacionat amb l’incident del 7 d’abril de 2025, volem deixar els encaminadors d’internet (ix) en la última versió de VyOS (1.4.2). Aquesta documentació és per ix2. ix1 s’actualitzarà en l’actuació del 2025-05-21.

Això ens permetrà comprovar que aquell incident amb IPv6 no es pot repetir, podrem tornar a fer l’encaminament amb BGP, i ens assegurem que l’incident no es pot donar per IPv4, que resultaria en una afectació més gran.

Pla d’actuació

  • Prèviament: comprovar en OOB accés a Proxmox i a ix1 + ix2
    • Constatem que les VLANs de gestió de routers no són accessibles des del OOB
    • Seguim endavant, sabent que podem restaurar funcionament i connectivitat amb rollbacks de Proxmox
    • Preparem la consola sèrie per OOB per poder restaurar ix2 si cal
  • Prèviament: descarregar la versió 1.4.2 de VyOS i carregar-la als routers ix1 i ix2
  • accés OOB i comprovació del pla d’actuació (~10 mins)
  • efectuar snapshots online amb Proxmox de ix1 + ix2 (poden haver micro talls)
  • comprovar en ix2 que el problema amb la sessió BGP de IPv6 persisteix (~5 mins)
    • això ho fem retirant-hi l’etiqueta passive i comprovant el loop de reinici de BGP als logs
    • les sessions BGP de IPv6 havien estat actives(!)
  • aïllar ix1 de la xarxa, de forma que només ix2 estigui funcionant (~10 mins)
    • Després d’estudiar-ho, veiem manera de fer l’actualització sense zero
    • Aïllant ix2 de la xarxa
    • Comprovant les configuracions a ix2
    • Tornant a connectar ix2
    • Aïllant ix1 de la xarxa
  • AFECTACIÓ PROGRAMADA: actualitzar ix2 a la v1.4.2
    • En ser l’únic router actiu, això resultarà en un “zero” de xarxa per tota eXO
  • FINAL AFECTACIÓ PROGRAMADA: comprovar que tot funciona OK
  • Comprovem i documentem en ix2 si el problema de la sessió BGP IPv6 es soluciona
    • Si és el cas, retirem les rutes estàtiques IPv6 per tal de tornar a fer FTR
    • Comprovem que els serveis es restauren correctament si es reinicia el router ix2
  • Durant uns dies eXO funcionarà únicament amb ix2 actiu, per tal de validar el correcte funcionament amb aquesta versió de VyOS
  • Si durant aquests dies detectem alguna anomalia, farem rollback aïllant ix2 de la xarxa i tornant a connectar ix1
  • Si d’altra banda tot va correctament, el dia 2025-05-21 actualitzem ix1, el tornem a endollar a la xarxa i comprovem la redundància dels routers

Línia de temps

Tots els temps en CEST.

  • 2025-05-19 22:30 INICI ACTUACIÓ
  • Prèviament: comprovar en OOB accés a
    • Proxmox
    • ix1 + ix2
    • Consola sèrie de proxmox per restaurar ix2
  • Prèviament: descarregar la versió 1.4.2 de VyOS i carregar-la als routers ix1 i ix2
  • accés OOB i comprovació del pla d’actuació (~10 mins)
  • 22:45 efectuar snapshots online amb Proxmox de ix1 + ix2 (poden haver micro talls)
  • comprovar en ix2 que el problema amb la sessió BGP de IPv6 persisteix (~5 mins)
    • això ho fem retirant-hi l’etiqueta passive i comprovant el loop de reinici de BGP als logs
    • La sessió estava activa(!)
  • 22:47 aïllar ix2 de la xarxa, de forma que només ix1 estigui funcionant
  • 22:57 actualitzat ix2 a la v1.4.2
  • 23:06 comprovats canvis de configuració
  • 23:07 restaurant VLANs en ix2, començant per 765
  • 23:09 tot funciona OK amb els dos routers ix1 i ix2
  • 23:10 comprovant que tot ha anat bé, volem veure estabilitat de la xarxa i si es recupera correctament en perdre un router
  • 23:20 Desactivem VLAN 765
  • 23:20 INICI AFECTACIÓ
  • 23:20 Observem un zero de xarxa que afecta la sala a meet.eXO.cat on ens coordinem
  • 23:23 algunes persones tenim connectivitat limitada (però no zero)
  • 23:26 ens podem connectar algunes persones a la sala en meet.eXO.cat
  • Intentem esbrinra el que ha passat, mentre obtenim via OOB l’accés en consola sèria al proxmox on és ix1
  • 23:35 fem rollback de ix1, que restaura també l’estat de les interfícies de xarxa
  • 23:35 FINAL AFECTACIÓ
  • Comentem el que ha passat, plantegem aprofitar la hora i la finestra anunciada per actualitzar ix1 i comprovar si funcionen junts en la última versió, deixant ix2 sol durant uns dies
  • 23:48 ens connectem amb un servei extern a eXO en cas d’incidència
  • 23:50 aïllem ix1 de la xarxa en preparació pel final de l’actuació
  • 2025-05-20 00:04 arribem a consens i actualitzem ix1
  • 2025-05-20 00:13 tornem a connectar ix1 i comprovem que tot funciona
  • 2025-05-20 00:15 aïllem ix1 per deixar ix2 sol durant uns dies
  • 2025-05-20 00:16 FINAL ACTUACIÓ

Detecció

Amb status.eXO.cat i comprovacions per part de persones d’eXO-servers anem veient que tot està OK o no.

Quà ha anat bé?

  • Hem sabut reaccionar bé i ràpid a situacions inesperades (OOB, zero de xarxa)

Què no ha anat bé?

  • Inesperadament desconnectar la VLAN 765 en ix1 ha resultat en un zero de xarxa
  • S’ha produït un zero de IPv6 en les FTTH que no hem detectat a temps

Enllaços a documentació rellevant

Accionables

  • Investigar zero de xarxa en desconnectar VLAN 765 a ix1 #1191