eXOtemp-p21 WIP: Estat de servei a eXO

[Aquest servei encara no està actiu i és un esborrany]

Introducció

L’activitat d’eXO i de la comissió tècnica exo-servers implica la provisió de serveis que afecten la vida de persones i organitzacions.

A través de la web status.exo.cat es pot consultar:

  1. Descripció de l’incident actual: en cas d’haver un incident actual, sortiria a dalt de tot de status.exo.cat amb un camp de text en format text pla o markdown
  2. Panell d’estat de servei: a continuació hi hauria un resum de la salut dels diferents serveis que mantenim des d’eXO
  3. Històric d’incidents: arxiu referenciat d’incidències anteriors, amb l’anàlisis detallat i cronologia de com ha succeït. El format de cada incident es registra com un camp de text en format text pla o markdown, això facilita restriccions en quant a quina eina es fa servir.

A continuació entrem en detall punt per punt com s’espera que funcioni

Després, s’explica el Procés de Comunicació amb l’ús d’aquests components

1. Descripció de l’incident actual

Determinades persones de la comissió tècnica podran canviar l’estat de forma intuïtiva (veure el com es fa enllaçat al final)

De cara a escriure l’incident utilitza l’annex de Suggerències de com presentar l’informació de l’incident

2. Panell d’estat de servei

TODO, Parlar de quines mètriques o alertes té sentit incloure

TODO explicar que les alertes i etc. estan definides en cdist-exo

Comunicacions

Entren en aquesta categoria els serveis web amb característiques de missatgeria instantània i de videoconferència

Serveis web

TODO

Connectivitat

La connectivitat s’avalua a través d’un conjunt de connexions de referència

Quedarà a criteri de la comissió tècnica quines formen part de les connexions referents, amb l’objectiu d’evitar aixecament en fals d’alertes o incidències produïdes per equips amb configuracions experimentals.

3. Històric d’incidents

Conté incidents anteriors i es pot consultar què va passar en cadascun d’ells

A efectes de poder ser específics, cal que aquest servei pugui ancorar a diferents parts del contingut a través d’un enllaç

De cara a escriure l’incident utilitza l’annex de Suggerències de com presentar l’informació de l’incident

Com a entitat, hem decidit que, degut a que els requeriments de l’històric d’incidents són molt genèrics, i això permet que estigui incorporat a aquella eina que fem servir com a àgora: eXOtemp-p13 L'àgora, el punt de trobada digital de la comunitat

Procés de Comunicació

Mecanisme de comunicació directa amb els interessats

Per una banda volem proveïr d’un servei, status.exo.cat, on la persona interessada pugui consultar actualitzacions de l’estat de servei a demanda.

Per l’altre, volem informar de l’estat de servei als interessats a través d’una llista de correu específica. La sincronia dels membres a aquesta llista es correspondrà amb una exportació de les dades de la nostre eXOtemp-p18 Eina de gestió administrativa on s’inclourà tant les sòcies com aquelles vinculades a través d’una factura recurrent.

Comunicació d’aturades de manteniment

  • Des de dins:
    • En l’eina d’històric d’incidents: comunicar el motiu del manteniment planificat especificant la finestra de temps d’actuació i explicant el nivell de servei que hi haurà mentre hi hagi l’intervenció
    • Descripció de l’incident actual: editar-lo durant la intervenció en cas de necessitat (veure annex)
  • Des de fora:
    • Comunicació a llista de correu en cas de que es preveu disrupció de servei:
      • Amb certa antelació (a criteri dels que intervenen), avisar de que hi haurà manteniment
      • Avís de que comença el manteniment
      • Avís de que ha acabat el manteniment
    • Qualsevol sol·licitud d’informació, redireccionar cap allà on és la informació

Comunicació d’incidents

  • Des de dins:
    • Descripció de l’incident actual: editar-lo durant la intervenció en cas de necessitat (veure annex). Serveix qualsevol unitat d’informació coherent relacionada amb un incident obert que entra en les categories de: investigació, identificació, monitorització o resolució
    • En l’eina d’històric d’incidents: recopilar tota la informació referent a l’incident i deixar-la per escrit a efectes que les persones puguin entendre què ha passat
  • Des de fora:
    • Comunicació a llista de correu en cas de que hi hagi disrupció de servei:
      • Avís de que hi ha un problema
      • Avís de que el problema s’ha resolt
    • Qualsevol sol·licitud d’informació, redireccionar cap allà on és la informació

Annex. Suggerències de com presentar l’informació de l’incident

En l’històric d’incident, es tracta d’explicar què ha passat o què està passant. Expressa’t com puguis

Si necessites alguna guia, aquí tens un extracte d’inspiració del history de status.gitlab.com (consultat a data de 2023-11-27)

  • Resum de l’incident
  • Tipus d’afectació de l’incident:
    • Rendiment degradat
    • Disrupció parcial de servei
    • Disrupció de servei
    • Manteniment planificat
    • Operacional
  • Afegir una sèrie d’entrades que comencen per una Línia de temps seguit d’una identificació de cada entrada que reflexen en aquell moment l’estat de l’incidència a mesura que va progressant:
    • [Identificat]
    • [Investigant]
    • [Monitoritzant]
    • [Resolt]

Si estigués relacionat amb un DDoS important, tenim aquesta recomanació de sourcehut:

In this post-mortem we are going to focus on the impact on our network and the steps we took to restore service, rather than going into what we know of the attack and the details of our mitigations, both for information security reasons and to avoid lending legitimacy to a bad actor.

TODO processar aquests articles per si trobem formes de fer-ho millor (gràcies @evilham)

1 'M'agrada'