Per fer servir aquesta plantilla, només cal que creeu un document a la categoria #exo:estat-de-servei i feu servir aquesta opció:
Aquesta plantilla ha estat fortament influenciada per Incident response/Full report template - Wikitech de l’equip de SREs la Wikimedia Foundation.
INCIDENT/ACTUACIÓ: %{topic_title,fallback:TÍTOL} (HORA LOCAL)
Retireu o reemplaceu les seccions marcades en groc.
Resum
Tipus | Incident / Actuació |
Inici | YYYY-MM-DD HH:MM (UTC) |
Final | YYYY-MM-DD HH:MM (UTC) |
Tíquet | #XYZ |
Alertes | Sí / No |
Reaccionen/Participen | @%{my_username}, @… |
Impacte | Qui ha estat afectat (tipus de persona / col·lectiu) i com? En cas d’actuacions: quin pot ser el seu efecte previst? No doneu per suposat que qui llegeixi sap el que és el servei o qui el fa servir. |
Reporten | @%{my_username}, … [amb supervisió de @…] |
OPCIONAL: Pla d’actuació
- …
detalleu el pla d’actuació si es tracta d’una actuació programada
Línia de temps
Prepareu una línia general de temps del que hagi causat l'incident o provocat l'actuació i com ha evolucionat o ha sigut solucionada. Incloent el procés previ a l'actuació o incident, així com l'epíleg. Considereu incloure gràfiques dels errors o les mètriques rellevants.Tots els temps en UTC.
- 05:14 INICI INCIDÈNCIA/ACTUACIÓ
- 06:08 (TODO) ha passat X, Y. @ABC ha fet XYZ
- 12:55 FINAL INCIDÈNCIA/ACTUACIÓ
TODO: indicar clarament quan comencen les incidències visibles si n’hi ha
Detecció
Escriviu com es detecten els incidents. Ha sigut monitorització automàtica la primera en detectar-ho? ha sigut un humà?
Si aplica, captures de pantalla o resum de status.exo.cat
Descriviu les alertes rellevants que s’han activat en aquesta secció.
Possible millora d’alertes
Han saltat les alertes apropiades? El volum d’alertes era administrable? Apuntaven al problema amb la major acuradesa possible?
Si només s’ha detectat amb un humà, probablement hauríem d’afegir un accionable “afegir alertes”.
Conclusions
- …
OPCIONAL: conclusions generals (amb forma de llistat o prosa).
Quà ha anat bé?
- …
OPCIONAL: (forma de llistat). per exemple: la monitorització automatitzada ha detectat l’incident, hem trobat la causa origen de l’incident ràpid, etc.
Què no ha anat bé?
- …
OPCIONAL: (forma de llistat). per exemple: la documentació del servei no estava disponible, no era útil; hi havia problemes de comunicació, d’accés, etc.
En què hem tingut sort?
- …
OPCIONAL: (forma de llistat). per exemple: report humà molt detallat, l’incident ha tingut lloc quan diverses persones podien reaccionar, etc.
Enllaços a documentació rellevant
- …
Afegiu enllaços a informació que pugui necessitar algú que vegi aquesta alerta o report (documentació, repositoris, commits, …). Si aquesta documentació no existeix, afegiu un accionable per crear-la
Accionables
- …
Creeu una llista d’accionables que ajudi a evitar que es repeteixi aquest incident dintre del que sigui possible. Enllaceu o creeu una tasca a farga.eXO.cat per cada pas.