Resum
Tipus | Incident |
Inici | 2024-11-28 23:39 (UTC) |
Final | Actualitat |
Tíquet | rt#710 |
Alertes | Sí |
Participen | Proveïdor FTTH, @evilham, @exopedro |
Impacte | Degradació en servei de FTTH, pèrdues de paquets sostingudes |
Reporten | inicia report @evilham, @exopedro ho trasllada a agora |
Proveïdor FTTH ha fet una intervenció que des de llavors està ocasionant pèrdues de paquets. El motiu ha sigut que els paquets, entremig, es mouen a través de 3 stacks L2 de mikrotik, i sembla ser que la L2 del servidor de fibres BNG2 s’ha quedat encallada, s’ha resolt posant una nova direcció MAC a la máquina virtual.
Línia de temps
Tots els temps en UTC.
2024-11-29
- 23:39 INICI INCIDÈNCIA
- 08:15 @evilham obre ticket rt#710
- 08:44 @evilham informa de pèrdua de paquets a proveïdor FTTH aprofitant el fil de correu de la informació sobre el manteniment planificat per la seva banda (de 23:00 a 05:00 UTC)
- 10:21 Proveïdor FTTH informa: Hem tingut problemes amb un enllaç iBGP, ha estat a un equip que no vam tocar ahir i ens ha costat detectar el problema, segurament els canvis a la xarxa han provocat que comences a fallar. Sobre les 10h hem solucionat el problema i sembla que tots els serveis s’han restablert.
- 10:45 @evilham respon: ara mateix encara hi ha pèrdua de paquets entre el 14% i el 37% a les fibres
- 12:37 @exopedro ho reporta via agora
Entre la data d’inici i de finalització els proveïdors upstream treballen fort per intentar esbrinar el problema (es pot completar post-mortem amb més detalls si ho creieu necessari.
2024-12-04
- 19:22: Inici d’intervenció exprés que provoca talls i downtime de BNG2 (i servei Fibres). Motiu: Roger Garcia proposa canviar la MAC del BNG2 com a proposta de mitigació
- 19:36 Fi d’intervenció i FINAL INCIDÈNCIA.
Detall intervenció clau sobre com hem canviat la MAC a BNG2 (Mikrotik)
-
Shutdown des de proxmox per deshabilitar HA també
-
interfície virtio esborrar MAC ‘AA:06:43:97:B2:9E’, al deixar-la buida fa ‘auto’, s’ha assignat una nova
-
en mikrotik s’ha hagut de fer aquestes operacions
/interface/ethernet/set 0 mtu=1598 /interface/vlan/set 0 interface=ether1 /interface/vlan/set 40 interface=ether1 /interface/vlan/set 41 interface=ether1 /interface/vlan/set 42 interface=ether1
/interface/vlan/print
ha sigut útil per descobrir els números màgics, i assegurar-se que estava ben aplicatllavors la comanda
/ppp/active/print
ja ha funcionat -
Es comprova que VMID 183 està en HA
Detecció
Alertes i alguns socis ho perceben
Possible millora d’alertes
El servei d’alertes va generant soroll de que falla i s’ha arreglat mentre la incidència és activa, però des del meu coneixement entenc que és molt difícil afinar en això
Conclusions
Es confirma que els switchos mikrotik en stack L2 tenen baixa qualitat: provoquen problemes que són difícils de trobar.
Quà ha anat bé?
Esperem a resolució d’incident
Què no ha anat bé?
- Proveïdors upstream han dedicat moltes hores a resoldre la incidència
- Alguns usuaris han experimentat importants problemes amb la seva connexió, veure secció Problemes dels usuaris de fibra degut als talls
Problemes dels usuaris de fibra degut als talls
Alguns efectes pràctics que ens han anat arribant:
- VoIP és inutilitzable
- Els túnels UDP funcionen molt malament
- La velocitat de transferència de dades (e.g. amb rsync) es redueix tant que moure 1 Gib pot trigar 10h
- La navegació “normal” per internet és clarament més lenta (entre altres perquè es poden perdre paquets UDP de DNS)
En què hem tingut sort?
Esperem a resolució d’incident
Enllaços a documentació rellevant
Esperem a resolució d’incident
Accionables
Esperem a resolució d’incident