2024-11-28 23:30 a 2024-11-29 00:30 Indisponibilitat de túnels comunitaris

Resum

Tipus Incident
Inici 2024-11-28 22:30 (UTC)
Final 2024-11-28 23:30 (UTC)
Tíquet -
Alertes Sí, moltes
Reaccionen @exopedro
Impacte Tots els que estan connectats a través de túnels comunitaris
Reporten @exopedro

El servidor mikrotik que gestiona totes aquestes connexions ha deixat de respondre. La solució ha sigut reiniciar-lo i sembla que ja s’ha arreglat

Línia de temps

Tots els temps en UTC.

  • 22:30 INICI INCIDÈNCIA: cauen la majoria de túnels comunitaris
  • 23:00 @exopedro reacciona, i descobreix que cap túnel funciona
  • 23:10 @exopedro intenta reboot i no funciona
  • 23:20 @exopedro força apagat, els túnels es comencen a aixecar
  • 23:30 FINAL INCIDÈNCIA

Detecció

  • Les alertes via email han ajudat
  • Aquestes gràfiques també SmokePing Latency Page for anella
  • També he entrat tant en un dels túnels i he comprovat que no funcionava, i també podia entrar en la mikrotik però no funcionaven les coses

Aquí es pot veure en el moment del tall

Possible millora d’alertes

No

Conclusions

De quan en quan el reiniciem, i no és gaire habitual o regular

Quà ha anat bé?

Que aquesta intervenció no és habitual, passa cada molt de temps: crec que l’última va ser [2023-12-19 Tue 01:43]

Què no ha anat bé?

El fet de fer servir programari privatiu dificulta debug i estabilitat del servei. No és fàcil plantejar-se fer un upgrade en aquest tipus de maquinari.

En què hem tingut sort?

Que @exopedro hagi pogut reaccionar ràpid (i que de casualitat està davant de l’ordinador a aquestes hores).

Enllaços a documentació rellevant

No aplica

Accionables

Si la propera incidència és l’any vinent no faria res, si comença a persistir més:

  1. opció “fàcil”: actualitzar a última versió “estable” de mikrotik 6
  2. opció difícil: migrar config a mikrotik 7