ACTUACIÓ actualització router ix2: 2025-05-19 22:30 - 2025-05-20 00:30
Resum
Tipus | Actuació |
Inici | 2025-05-19 22:30 (CEST) |
Final | 2025-05-20 00:30 (CEST) |
Tíquet | #1183, #1184 |
Alertes | N/A |
Participen | @evilham, @dyangol, glutec |
Impacte | Durant la finestra d’actuació es preveu un petit zero de connectivitat (radio, FTTH i datacenter) de màxim 15 minuts, hi poden haver un parell de microtalls prèviament |
Reporten | @evilham |
Relacionat amb l’incident del 7 d’abril de 2025, volem deixar els encaminadors d’internet (ix
) en la última versió de VyOS (1.4.2). Aquesta documentació és per ix2
. ix1
s’actualitzarà en l’actuació del 2025-05-21.
Això ens permetrà comprovar que aquell incident amb IPv6 no es pot repetir, podrem tornar a fer l’encaminament amb BGP, i ens assegurem que l’incident no es pot donar per IPv4, que resultaria en una afectació més gran.
Pla d’actuació
-
Prèviament: comprovar en OOB accés a Proxmox i aix1
+ix2
- Constatem que les VLANs de gestió de routers no són accessibles des del OOB
- Seguim endavant, sabent que podem restaurar funcionament i connectivitat amb rollbacks de Proxmox
- Preparem la consola sèrie per OOB per poder restaurar
ix2
si cal
- Prèviament: descarregar la versió 1.4.2 de VyOS i carregar-la als routers
ix1
iix2
- accés OOB i comprovació del pla d’actuació (~10 mins)
- efectuar snapshots online amb Proxmox de
ix1
+ix2
(poden haver micro talls) -
comprovar enix2
que el problema amb la sessió BGP de IPv6 persisteix (~5 mins)-
això ho fem retirant-hi l’etiquetapassive
i comprovant el loop de reinici de BGP als logs - les sessions BGP de IPv6 havien estat actives(!)
-
-
aïllarix1
de la xarxa, de forma que nomésix2
estigui funcionant (~10 mins)- Després d’estudiar-ho, veiem manera de fer l’actualització sense zero
- Aïllant
ix2
de la xarxa - Comprovant les configuracions a
ix2
- Tornant a connectar
ix2
- Aïllant
ix1
de la xarxa
-
AFECTACIÓ PROGRAMADA: actualitzarix2
a la v1.4.2En ser l’únic router actiu, això resultarà en un “zero” de xarxa per tota eXO
-
FINAL AFECTACIÓ PROGRAMADA: comprovar que tot funciona OK -
Comprovem i documentem enix2
si el problema de la sessió BGP IPv6 es soluciona-
Si és el cas, retirem les rutes estàtiques IPv6 per tal de tornar a fer FTR -
Comprovem que els serveis es restauren correctament si es reinicia el routerix2
-
- Durant uns dies eXO funcionarà únicament amb
ix2
actiu, per tal de validar el correcte funcionament amb aquesta versió de VyOS - Si durant aquests dies detectem alguna anomalia, farem rollback
aïllantix2
de la xarxa i tornant a connectarix1
- Si d’altra banda tot va correctament, el dia 2025-05-21 actualitzem
ix1
, el tornem a endollar a la xarxa i comprovem la redundància dels routers
Línia de temps
Tots els temps en CEST.
- 2025-05-19 22:30 INICI ACTUACIÓ
- Prèviament: comprovar en OOB accés a
- Proxmox
-
ix1
+ix2
- Consola sèrie de proxmox per restaurar
ix2
- Prèviament: descarregar la versió 1.4.2 de VyOS i carregar-la als routers
ix1
iix2
- accés OOB i comprovació del pla d’actuació (~10 mins)
- 22:45 efectuar snapshots online amb Proxmox de
ix1
+ix2
(poden haver micro talls) -
comprovar enix2
que el problema amb la sessió BGP de IPv6 persisteix (~5 mins)-
això ho fem retirant-hi l’etiquetapassive
i comprovant el loop de reinici de BGP als logs - La sessió estava activa(!)
-
- 22:47 aïllar
ix2
de la xarxa, de forma que nomésix1
estigui funcionant - 22:57 actualitzat
ix2
a la v1.4.2 - 23:06 comprovats canvis de configuració
- 23:07 restaurant VLANs en
ix2
, començant per 765 - 23:09 tot funciona OK amb els dos routers
ix1
iix2
- 23:10 comprovant que tot ha anat bé, volem veure estabilitat de la xarxa i si es recupera correctament en perdre un router
- 23:20 Desactivem VLAN 765
- 23:20 INICI AFECTACIÓ
- 23:20 Observem un zero de xarxa que afecta la sala a meet.eXO.cat on ens coordinem
- 23:23 algunes persones tenim connectivitat limitada (però no zero)
- 23:26 ens podem connectar algunes persones a la sala en meet.eXO.cat
- Intentem esbrinra el que ha passat, mentre obtenim via OOB l’accés en consola sèria al proxmox on és
ix1
- 23:35 fem rollback de
ix1
, que restaura també l’estat de les interfícies de xarxa - 23:35 FINAL AFECTACIÓ
- Comentem el que ha passat, plantegem aprofitar la hora i la finestra anunciada per actualitzar
ix1
i comprovar si funcionen junts en la última versió, deixantix2
sol durant uns dies - 23:48 ens connectem amb un servei extern a eXO en cas d’incidència
- 23:50 aïllem
ix1
de la xarxa en preparació pel final de l’actuació - 2025-05-20 00:04 arribem a consens i actualitzem
ix1
- 2025-05-20 00:13 tornem a connectar
ix1
i comprovem que tot funciona - 2025-05-20 00:15 aïllem
ix1
per deixarix2
sol durant uns dies - 2025-05-20 00:16 FINAL ACTUACIÓ
Detecció
Amb status.eXO.cat i comprovacions per part de persones d’eXO-servers anem veient que tot està OK o no.
Quà ha anat bé?
- Hem sabut reaccionar bé i ràpid a situacions inesperades (OOB, zero de xarxa)
Què no ha anat bé?
- Inesperadament desconnectar la VLAN 765 en
ix1
ha resultat en un zero de xarxa - S’ha produït un zero de IPv6 en les FTTH que no hem detectat a temps
Enllaços a documentació rellevant
Accionables
- Investigar zero de xarxa en desconnectar VLAN 765 a
ix1
#1191