2025-04-07 18:11 INCIDENT: Connectivitat IPv6 afectada
Resum
Tipus | Incident |
Inici | 2025-04-07 16:11 (UTC) |
Final | 2025-04-08 17:16 (UTC) |
Tíquet | #1184 |
Alertes | Sí |
Reaccionen | @evilham, glutec, @dl.ramon, @jmoles |
Impacte | Els serveis de connectivitat s’han vist afectats negativament (lentitud de càrrega, inconsistència), i els serveis web oferts per eXO han estat indisponibles per IPv6, però sí per IPv4. Serveis que depenguessin per exemple d’interconnexions per IPv6 únicament tampoc estaven disponibles. És possible que hi hagués problemes de resolució inconsistent en dominis que fan servir ns{3,4}.eXO.cat com a autoritatius. |
Reporten | @evilham |
El peer BGP per IPv6 amb l’upstream Glutec deixa de funcionar, això vol dir que no hi havia connectivitat entrant ni sortint via IPv6.
Línia de temps
Tots els temps en UTC.
- 2025-04-07 13:24: Alerta BGP, prefixe sense anunciar. Sense incidències immediates
- 2025-04-07 16:11 INICI INCIDÈNCIA
- 17:04: @evilham consulta si hi ha hagut actuacions recents
- Res relacionat, es va comentant, els temps no corresponen, la tipologia d’error tampoc
- En no haver cap incidència generalitzada es descarta problema general a glutec
- 18:41: @evilham avalua l’abast de la incidència més enllà d’alertes:
- connectivitat entrant i sortint no funcionals per IPv6
- 20:36: glutec confirma que tot torna a funcionar, però no s’ha canviat res
- 21:03: @evilham comprova que la incidència ha tornat i fa algunes comprovacions
- 22:08: glutec reinicia els peers BGP, confirmant que no s’arregla res per eXO i que els seus sistemes i d’altres clients estan OK
- 2025-04-08 7:18: @evilham reporta que la connexió està essent flaky, amb 46% de downtime IPv6 en un període de 13 hores
- 9:41: veiem en bucle als logs del BGP
Apr 8 11:41:37 ix1 bgpd[1020]: [EC 33554503] ::a unrecognized capability code: 9 - ignored
Apr 8 11:41:38 ix1 bgpd[1020]: [EC 33554434] Prefix SID SRv6 L3-Service length is 34 instead of 21
Apr 8 11:41:38 ix1 bgpd[1020]: [EC 33554487] ::a Attribute PREFIX_SID, parse error - treating as withdrawal
Apr 8 11:41:38 ix1 bgpd[1020]: [EC 33554454] ::a rcvd UPDATE with errors in attr(s)!! Withdrawing route.
Apr 8 11:41:38 ix1 bgpd[1020]: [EC 33554454] ::a [Error] Update packet error (wrong prefix length 144 for afi 1)
Apr 8 11:41:38 ix1 bgpd[1020]: [EC 33554454] ::a [Error] Error parsing NLRI
Apr 8 11:41:38 ix1 bgpd[1020]: [EC 33554454] bgp_process_packet: BGP UPDATE receipt failed for peer: ::a
- 9:55: tornem a comprovar que les actuacions recents de glutec no tenen res a veure amb BGP
- 10:19: sospitem bugs d’enrutadors, acordem reunió tècnica
- 15:08: @evilham descobreix CVE-2023-38802 i la investiga meś en detall
- 16:40: actualitzem els routers ix1 i ix2 de VyOS 1.3.3 a v1.3.8
- 16:52: en no funcionar, intentem anunciar default gateways des de glutec
- 17:30: després de trobar-nos diversos inconvenients i avaluar moltes opcions, decidim afegir rutes estàtiques de forma temporal
- 2025-04-08 17:55 FINAL INCIDÈNCIA
Detecció
La monitorització ha funcionat molt bé i ens ha permès tenir molt més acotat el problema.
Possible millora d’alertes
Podríem millorar d’alguna manera la visibilitat de les alertes / de https://status.eXO.cat, perquè les persones no s’adrecin tant a les invidiualitats que estant investigant / intentant resoldre el problema
Què ha anat bé?
- Bona coordinació i col·laboració
- Solucions pragmàtiques i efectives encara que temporals
En què hem tingut sort?
- No ha sigut IPv4
Enllaços a documentació rellevant
- https://farga.exo.cat/exo/projectes/issues/1182
- Grave flaws in BGP Error handling
- NVD - CVE-2023-38802