Resum
Tipus | Incident |
Inici | 2024-11-28 22:30 (UTC) |
Final | 2024-11-28 23:30 (UTC) |
Tíquet | - |
Alertes | Sí, moltes |
Reaccionen | @exopedro |
Impacte | Tots els que estan connectats a través de túnels comunitaris |
Reporten | @exopedro |
El servidor mikrotik que gestiona totes aquestes connexions ha deixat de respondre. La solució ha sigut reiniciar-lo i sembla que ja s’ha arreglat
Línia de temps
Tots els temps en UTC.
- 22:30 INICI INCIDÈNCIA: cauen la majoria de túnels comunitaris
- 23:00 @exopedro reacciona, i descobreix que cap túnel funciona
- 23:10 @exopedro intenta reboot i no funciona
- 23:20 @exopedro força apagat, els túnels es comencen a aixecar
- 23:30 FINAL INCIDÈNCIA
Detecció
- Les alertes via email han ajudat
- Aquestes gràfiques també SmokePing Latency Page for anella
- També he entrat tant en un dels túnels i he comprovat que no funcionava, i també podia entrar en la mikrotik però no funcionaven les coses
Aquí es pot veure en el moment del tall
Possible millora d’alertes
No
Conclusions
De quan en quan el reiniciem, i no és gaire habitual o regular
Quà ha anat bé?
Que aquesta intervenció no és habitual, passa cada molt de temps: crec que l’última va ser [2023-12-19 Tue 01:43]
Què no ha anat bé?
El fet de fer servir programari privatiu dificulta debug i estabilitat del servei. No és fàcil plantejar-se fer un upgrade en aquest tipus de maquinari.
En què hem tingut sort?
Que @exopedro hagi pogut reaccionar ràpid (i que de casualitat està davant de l’ordinador a aquestes hores).
Enllaços a documentació rellevant
No aplica
Accionables
Si la propera incidència és l’any vinent no faria res, si comença a persistir més:
- opció “fàcil”: actualitzar a última versió “estable” de mikrotik 6
- opció difícil: migrar config a mikrotik 7