2024-11-29 00:39 a 2024-12-04 20:36 - INCIDENT: Servei FTTH degradat arrel de manteniment de proveïdor de FTTH

Resum

Tipus Incident
Inici 2024-11-28 23:39 (UTC)
Final Actualitat
Tíquet rt#710
Alertes
Participen Proveïdor FTTH, @evilham, @exopedro
Impacte Degradació en servei de FTTH, pèrdues de paquets sostingudes
Reporten inicia report @evilham, @exopedro ho trasllada a agora

Proveïdor FTTH ha fet una intervenció que des de llavors està ocasionant pèrdues de paquets. El motiu ha sigut que els paquets, entremig, es mouen a través de 3 stacks L2 de mikrotik, i sembla ser que la L2 del servidor de fibres BNG2 s’ha quedat encallada, s’ha resolt posant una nova direcció MAC a la máquina virtual.

Línia de temps

Tots els temps en UTC.

2024-11-29

  • 23:39 INICI INCIDÈNCIA
  • 08:15 @evilham obre ticket rt#710
  • 08:44 @evilham informa de pèrdua de paquets a proveïdor FTTH aprofitant el fil de correu de la informació sobre el manteniment planificat per la seva banda (de 23:00 a 05:00 UTC)
  • 10:21 Proveïdor FTTH informa: Hem tingut problemes amb un enllaç iBGP, ha estat a un equip que no vam tocar ahir i ens ha costat detectar el problema, segurament els canvis a la xarxa han provocat que comences a fallar. Sobre les 10h hem solucionat el problema i sembla que tots els serveis s’han restablert.
  • 10:45 @evilham respon: ara mateix encara hi ha pèrdua de paquets entre el 14% i el 37% a les fibres
  • 12:37 @exopedro ho reporta via agora

Entre la data d’inici i de finalització els proveïdors upstream treballen fort per intentar esbrinar el problema (es pot completar post-mortem amb més detalls si ho creieu necessari.

2024-12-04

  • 19:22: Inici d’intervenció exprés que provoca talls i downtime de BNG2 (i servei Fibres). Motiu: Roger Garcia proposa canviar la MAC del BNG2 com a proposta de mitigació
  • 19:36 Fi d’intervenció i FINAL INCIDÈNCIA.

Detall intervenció clau sobre com hem canviat la MAC a BNG2 (Mikrotik)

  1. Shutdown des de proxmox per deshabilitar HA també

  2. interfície virtio esborrar MAC ‘AA:06:43:97:B2:9E’, al deixar-la buida fa ‘auto’, s’ha assignat una nova

  3. en mikrotik s’ha hagut de fer aquestes operacions

    /interface/ethernet/set 0 mtu=1598
    /interface/vlan/set 0 interface=ether1
    /interface/vlan/set 40 interface=ether1
    /interface/vlan/set 41 interface=ether1
    /interface/vlan/set 42 interface=ether1
    

    /interface/vlan/print ha sigut útil per descobrir els números màgics, i assegurar-se que estava ben aplicat

    llavors la comanda /ppp/active/print ja ha funcionat

  4. Es comprova que VMID 183 està en HA

Detecció

Alertes i alguns socis ho perceben

Possible millora d’alertes

El servei d’alertes va generant soroll de que falla i s’ha arreglat mentre la incidència és activa, però des del meu coneixement entenc que és molt difícil afinar en això

Conclusions

Es confirma que els switchos mikrotik en stack L2 tenen baixa qualitat: provoquen problemes que són difícils de trobar.

Quà ha anat bé?

Esperem a resolució d’incident

Què no ha anat bé?

  1. Proveïdors upstream han dedicat moltes hores a resoldre la incidència
  2. Alguns usuaris han experimentat importants problemes amb la seva connexió, veure secció Problemes dels usuaris de fibra degut als talls

Problemes dels usuaris de fibra degut als talls

Alguns efectes pràctics que ens han anat arribant:

  • VoIP és inutilitzable
  • Els túnels UDP funcionen molt malament
  • La velocitat de transferència de dades (e.g. amb rsync) es redueix tant que moure 1 Gib pot trigar 10h
  • La navegació “normal” per internet és clarament més lenta (entre altres perquè es poden perdre paquets UDP de DNS)

En què hem tingut sort?

Esperem a resolució d’incident

Enllaços a documentació rellevant

Esperem a resolució d’incident

Accionables

Esperem a resolució d’incident