Plantilla: report d'incident o actuació

Per fer servir aquesta plantilla, només cal que creeu un document a la categoria #exo:estat-de-servei i feu servir aquesta opció:

Aquesta plantilla ha estat fortament influenciada per Incident response/Full report template - Wikitech de l’equip de SREs la Wikimedia Foundation.

INCIDENT/ACTUACIÓ: %{topic_title,fallback:TÍTOL} (HORA LOCAL)

Retireu o reemplaceu les seccions marcades en groc.

Resum

Tipus Incident / Actuació
Inici YYYY-MM-DD HH:MM (UTC)
Final YYYY-MM-DD HH:MM (UTC)
Tíquet #XYZ
Alertes Sí / No
Reaccionen/Participen @%{my_username}, @…
Impacte Qui ha estat afectat (tipus de persona / col·lectiu) i com? En cas d’actuacions: quin pot ser el seu efecte previst? No doneu per suposat que qui llegeixi sap el que és el servei o qui el fa servir.
Reporten @%{my_username}, … [amb supervisió de @…]
Resum del que ha passat, en un o dos paràgrafs. Eviteu donar donar per suposat coneixement en detall dels sistemes afectats; intentem diferenciar entre les causes probables i les possibles causes d'origen.

OPCIONAL: Pla d’actuació

detalleu el pla d’actuació si es tracta d’una actuació programada

Línia de temps

Prepareu una línia general de temps del que hagi causat l'incident o provocat l'actuació i com ha evolucionat o ha sigut solucionada. Incloent el procés previ a l'actuació o incident, així com l'epíleg. Considereu incloure gràfiques dels errors o les mètriques rellevants.

Tots els temps en UTC.

  • 05:14 INICI INCIDÈNCIA/ACTUACIÓ
  • 06:08 (TODO) ha passat X, Y. @ABC ha fet XYZ
  • 12:55 FINAL INCIDÈNCIA/ACTUACIÓ

TODO: indicar clarament quan comencen les incidències visibles si n’hi ha

Detecció

Escriviu com es detecten els incidents. Ha sigut monitorització automàtica la primera en detectar-ho? ha sigut un humà?

Si aplica, captures de pantalla o resum de status.exo.cat

Descriviu les alertes rellevants que s’han activat en aquesta secció.

Possible millora d’alertes

Han saltat les alertes apropiades? El volum d’alertes era administrable? Apuntaven al problema amb la major acuradesa possible?

Si només s’ha detectat amb un humà, probablement hauríem d’afegir un accionable “afegir alertes”.

Conclusions

OPCIONAL: conclusions generals (amb forma de llistat o prosa).

Quà ha anat bé?

OPCIONAL: (forma de llistat). per exemple: la monitorització automatitzada ha detectat l’incident, hem trobat la causa origen de l’incident ràpid, etc.

Què no ha anat bé?

OPCIONAL: (forma de llistat). per exemple: la documentació del servei no estava disponible, no era útil; hi havia problemes de comunicació, d’accés, etc.

En què hem tingut sort?

OPCIONAL: (forma de llistat). per exemple: report humà molt detallat, l’incident ha tingut lloc quan diverses persones podien reaccionar, etc.

Enllaços a documentació rellevant

Afegiu enllaços a informació que pugui necessitar algú que vegi aquesta alerta o report (documentació, repositoris, commits, …). Si aquesta documentació no existeix, afegiu un accionable per crear-la

Accionables

Creeu una llista d’accionables que ajudi a evitar que es repeteixi aquest incident dintre del que sigui possible. Enllaceu o creeu una tasca a farga.eXO.cat per cada pas.