2025-04-07 16:11 - 2025-04-08 17:16: Incident connectivitat IPv6

2025-04-07 18:11 INCIDENT: Connectivitat IPv6 afectada

Resum

Tipus Incident
Inici 2025-04-07 16:11 (UTC)
Final 2025-04-08 17:16 (UTC)
Tíquet #1184
Alertes
Reaccionen @evilham, glutec, @dl.ramon, @jmoles
Impacte Els serveis de connectivitat s’han vist afectats negativament (lentitud de càrrega, inconsistència), i els serveis web oferts per eXO han estat indisponibles per IPv6, però sí per IPv4. Serveis que depenguessin per exemple d’interconnexions per IPv6 únicament tampoc estaven disponibles. És possible que hi hagués problemes de resolució inconsistent en dominis que fan servir ns{3,4}.eXO.cat com a autoritatius.
Reporten @evilham

El peer BGP per IPv6 amb l’upstream Glutec deixa de funcionar, això vol dir que no hi havia connectivitat entrant ni sortint via IPv6.

Línia de temps

Tots els temps en UTC.

  • 2025-04-07 13:24: Alerta BGP, prefixe sense anunciar. Sense incidències immediates
  • 2025-04-07 16:11 INICI INCIDÈNCIA
  • 17:04: @evilham consulta si hi ha hagut actuacions recents
    • Res relacionat, es va comentant, els temps no corresponen, la tipologia d’error tampoc
    • En no haver cap incidència generalitzada es descarta problema general a glutec
  • 18:41: @evilham avalua l’abast de la incidència més enllà d’alertes:
    • connectivitat entrant i sortint no funcionals per IPv6
  • 20:36: glutec confirma que tot torna a funcionar, però no s’ha canviat res
  • 21:03: @evilham comprova que la incidència ha tornat i fa algunes comprovacions
  • 22:08: glutec reinicia els peers BGP, confirmant que no s’arregla res per eXO i que els seus sistemes i d’altres clients estan OK
  • 2025-04-08 7:18: @evilham reporta que la connexió està essent flaky, amb 46% de downtime IPv6 en un període de 13 hores
  • 9:41: veiem en bucle als logs del BGP


    Apr 8 11:41:37 ix1 bgpd[1020]: [EC 33554503] ::a unrecognized capability code: 9 - ignored
    Apr 8 11:41:38 ix1 bgpd[1020]: [EC 33554434] Prefix SID SRv6 L3-Service length is 34 instead of 21
    Apr 8 11:41:38 ix1 bgpd[1020]: [EC 33554487] ::a Attribute PREFIX_SID, parse error - treating as withdrawal
    Apr 8 11:41:38 ix1 bgpd[1020]: [EC 33554454] ::a rcvd UPDATE with errors in attr(s)!! Withdrawing route.
    Apr 8 11:41:38 ix1 bgpd[1020]: [EC 33554454] ::a [Error] Update packet error (wrong prefix length 144 for afi 1)
    Apr 8 11:41:38 ix1 bgpd[1020]: [EC 33554454] ::a [Error] Error parsing NLRI
    Apr 8 11:41:38 ix1 bgpd[1020]: [EC 33554454] bgp_process_packet: BGP UPDATE receipt failed for peer: ::a
  • 9:55: tornem a comprovar que les actuacions recents de glutec no tenen res a veure amb BGP
  • 10:19: sospitem bugs d’enrutadors, acordem reunió tècnica
  • 15:08: @evilham descobreix CVE-2023-38802 i la investiga meś en detall
  • 16:40: actualitzem els routers ix1 i ix2 de VyOS 1.3.3 a v1.3.8
  • 16:52: en no funcionar, intentem anunciar default gateways des de glutec
  • 17:30: després de trobar-nos diversos inconvenients i avaluar moltes opcions, decidim afegir rutes estàtiques de forma temporal
  • 2025-04-08 17:55 FINAL INCIDÈNCIA

Detecció

La monitorització ha funcionat molt bé i ens ha permès tenir molt més acotat el problema.

Possible millora d’alertes

Podríem millorar d’alguna manera la visibilitat de les alertes / de https://status.eXO.cat, perquè les persones no s’adrecin tant a les invidiualitats que estant investigant / intentant resoldre el problema

Què ha anat bé?

  • Bona coordinació i col·laboració
  • Solucions pragmàtiques i efectives encara que temporals

En què hem tingut sort?

  • No ha sigut IPv4

Enllaços a documentació rellevant

Accionables

  • #1183 Això segurament passa per actualitzar ix1 i ix2 a VyOS v1.4.2 (publicat: abril 2025)
    • Si l’actualització no resol el problema, cal investigar més en aquest tipus d’incident BGP
  • No la resol, cal restaurar l’habilitat d’eXO de fer FTR #1184