2024-10-23 15:14: INCIDENT degradación meet.guifi.net / meet.eXO.cat

INCIDENT degradación meet.guifi.net / meet.eXO.cat: 2024-10-23 (15:14-17:00)

Resum

A B
Tipus Incident
Inici 2024-10-23 13:14 (UTC)
Final 2024-10-23 15:00 (UTC)
Tíquet -
Alertes
Reaccionen @evilham
Impacte Degradació de servei de jitsi sota meet.guifi.net / meet.eXO.cat
Reporten @evilham

Recibimos alertas de servicio para la máquina virtual gestionada por eXO.cat que proporciona el servicio meet.guifi.net / meet.eXO.cat a la comunidad.

Esto significa que, aunque el servicio esté activo, no funciona con la calidad que tiene habitualmente.

Línia de temps

Tots els temps en UTC.

  • 13:14 INICI INCIDÈNCIA
  • 13:24 @evilham identifica un posible ataque DDoS
  • 13:30 al intentar mitigarlo observamos que se trata de conexiones domésticas en Perú
  • 13:31 con los logs de servidor vemos patrones que parecen ser de clases de alguna escuela
  • 13:32 entramos en algunas salas aleatorias para enviar un mensaje a los administradores de la sala, pidiendo que contacten con eXO.cat; en el proceso confirmamos la sospecha que se trata de alguna escuela en Perú
  • 14:13 configuramos mensajes personalizados avisando que este uso no está soportado
  • 14:23 detectamos una nueva versión de jitsi y preparamos el despliegue
  • 14:34 aplicamos cambios en servidor
  • 14:37 ampliamos recursos en servidor de forma temporal para garantizar el buen funcionamiento de reunión interna
  • 14:43 los cambios aplicados desconectarán todas las personas forzando una actualización de la página (y que se muestren los mensajes añadidos)
  • 15:00 FINAL INCIDÈNCIA

Detecció

Les alertes de servei han detectat correctament una degradació de servei i han permès reaccionar ràpidament.

Possible millora d’alertes

  • Potser seria interessant que les alertes també saltin amb una pujada de mitjana de participants per sala.
  • Cal revisar també que les alertes de màquines les rebin totes les persones d’eXO-servers

Conclusions

  • Si no baja el uso del servidor, tendremos que analizar medidas posibles
  • Update: dies després no ens han contactat i l’ús del servei torna a ser normal

Què ha anat bé?

  • Alertes, temps de reacció.

Què no ha anat bé?

  • No tenim un document públic en diversos idiomes amb polítiques d’ús.

En què hem tingut sort?

  • L’equipament en CPD pot tractar sense problemes amb la càrrega; es tracta d’una incidència de servei

Enllaços a documentació rellevant

Accionables

  • Uns dies després hem restaurat les dimensions de la màquina anteriors
1 'M'agrada'