INCIDENT degradación meet.guifi.net / meet.eXO.cat: 2024-10-23 (15:14-17:00)
Resum
A | B |
---|---|
Tipus | Incident |
Inici | 2024-10-23 13:14 (UTC) |
Final | 2024-10-23 15:00 (UTC) |
Tíquet | - |
Alertes | Sí |
Reaccionen | @evilham |
Impacte | Degradació de servei de jitsi sota meet.guifi.net / meet.eXO.cat |
Reporten | @evilham |
Recibimos alertas de servicio para la máquina virtual gestionada por eXO.cat que proporciona el servicio meet.guifi.net / meet.eXO.cat a la comunidad.
Esto significa que, aunque el servicio esté activo, no funciona con la calidad que tiene habitualmente.
Línia de temps
Tots els temps en UTC.
- 13:14 INICI INCIDÈNCIA
- 13:24 @evilham identifica un posible ataque DDoS
- 13:30 al intentar mitigarlo observamos que se trata de conexiones domésticas en Perú
- 13:31 con los logs de servidor vemos patrones que parecen ser de clases de alguna escuela
- 13:32 entramos en algunas salas aleatorias para enviar un mensaje a los administradores de la sala, pidiendo que contacten con eXO.cat; en el proceso confirmamos la sospecha que se trata de alguna escuela en Perú
- 14:13 configuramos mensajes personalizados avisando que este uso no está soportado
- 14:23 detectamos una nueva versión de jitsi y preparamos el despliegue
- 14:34 aplicamos cambios en servidor
- 14:37 ampliamos recursos en servidor de forma temporal para garantizar el buen funcionamiento de reunión interna
- 14:43 los cambios aplicados desconectarán todas las personas forzando una actualización de la página (y que se muestren los mensajes añadidos)
- 15:00 FINAL INCIDÈNCIA
Detecció
Les alertes de servei han detectat correctament una degradació de servei i han permès reaccionar ràpidament.
Possible millora d’alertes
- Potser seria interessant que les alertes també saltin amb una pujada de mitjana de participants per sala.
- Cal revisar també que les alertes de màquines les rebin totes les persones d’eXO-servers
Conclusions
- Si no baja el uso del servidor, tendremos que analizar medidas posibles
- Update: dies després no ens han contactat i l’ús del servei torna a ser normal
Què ha anat bé?
- Alertes, temps de reacció.
Què no ha anat bé?
- No tenim un document públic en diversos idiomes amb polítiques d’ús.
En què hem tingut sort?
- L’equipament en CPD pot tractar sense problemes amb la càrrega; es tracta d’una incidència de servei
Enllaços a documentació rellevant
Accionables
- Uns dies després hem restaurat les dimensions de la màquina anteriors