ACTUACIÓ: Actualització a proxmox 7 (2024-07-09 16:00-20:09)
Resum
Tipus | Actuació |
Inici | 2024-07-09 14:00 (UTC) |
Final | 2024-07-09 18:09 (UTC) |
Tíquet | #790 |
Alertes | No |
Participen | @evilham, @dl.ramon, @exopedro, @dyangol, @jmoles, roger.garcia |
Impacte | No s’esperen afectacions de servei, és una actualització esglaonada on no es toca equipament de xarxa i on la redundància de cluster s’assegura que els serveis estiguin en marxa. En cas de fallida, principalment podria afectar les màquines virtuals. |
Reporten | @evilham, @exopedro |
En reunió 2024-07-02 (#1118) fixem la data de l’actualització, basant-los en la disponibilitat d’@exo-servers i en el fet que la versió que tenim actualment deixarà de ser suportada aviat.
Pla d’actuació
- 1. Buidar de serveis un trax (comencem amb el 5)
- 2. Comprovacions:
- Comprovem que hi podem accedir als trax5-8 via OOB+IPMI
- trax3 també, però és una mica més estrany
- En cada trax: versions gluster (9) i pve + zfs
- descobert en problema durant actuació: Comprovar que els
/etc/machine-id
són tots diferents!
- 3. Primer fem
apt update
+apt dist-upgrade
per estar a l’última - 4.
systemctl reboot
- 5. revisió estat general gluster
- 6. self-heal
- 7. Canvis de repo a bullseye (veure abaix)
- Tot de
buster
abullseye
(debian,gluster
,pve
) - Atenció:
deb http://security.debian.org/debian-security bullseye-security main contrib non-free
- Tot de
- 8.
zfs snapshot -r rpool/ROOT@upgrade7
- 9.
apt dist-upgrade
- 10.
zfs set recordsize=4k vmpool
- 11. I saltem a kernel 5.19
- 12. reiniciem
- 13. Comprovem
- 14. Esperem que el self-heal apliqui, re-apliquem per següent trax
Línia de temps
Tots els temps en UTC.
- 14:00 INICI ACTUACIÓ
- 14:00 Posta al dia, consensuem el pla d’actuació.
- 15:02 trax5 actualitzat, deixem fent el self-heal
- 15:31 trax3 actualitzat, trax6 buidat
- 15:32 comencem amb trax6
- 15:58: INCIDÈNCIA global
- Identifiquem que el
machine-id
era compartit i això és un problema en Proxmox 7+ (trax5
itrax6
) - apliquem
service netorking stop
entrax6
per treure’l de la xarxa
- Identifiquem que el
- 16:05: FI INCIDÈNCIA global
- 16:05: INCIDÈNCIA EN VMs segueix activa
- 16:07: aixequem serveis bàsics de comunicació i comencem a revisar estat de cluster
- 16:10: comprovem que es va recuperant el gluster en
trax6
- 16:10: forcem una re-generació del
machine-id
detrax6
finstrax8
(trax3
no cal) - 10:14: anem recuperant els serveis de clients
- 16:33: FI INCIDÈNCIA en VMs, tots els serveis OK
- 16:37: @evilham marxa temporalment,
trax7
està buit per poder començar amb la seva actualització - 16:40: tornem a comprovar explícitament que tots els
machine-ids
són diferents - 16:40: desactivem el HA mentre finalitzem les actualitzacions
- 16:46: continuem amb el procediment a
trax7
- 17:03: amb
trax7
acabat, comencem a buidartrax8
- 17:48: amb
trax8
acabat, tornem a activar el HA - 17:48: fem tasques de cleanup a tots els nodes
-
apt autoremove
-
apt dist-upgrade
(llibrerialibgc1c2→libgc1
) - neteja de snapshots antics
-
- 18:09 FINAL ACTUACIÓ
Possible millora d’alertes
Ha anat força bé!
Conclusions
- L’actuació ha anat força bé dintre de la complexitat que té, amb una petita incidència que hem solucionat força ràpid
Què ha anat bé?
- L’equip treballa molt bé junt <3
- L’accés Out Of Band és molt bo i ha sigut crucial!
Què no ha anat bé?
- Amb ser un dia de cada dia, estàvem cansats se’ns ha escapat afegir el check dels
machine-id
al pla
En què hem tingut sort?
- Com que el problema dels
machine-id
era conegut, l’hem solucionat ràpid, si no, hagués pogut costar molt temps - Esperàvem una incidència amb els noms de les interfícies de xarxa, però ja està solucionat en el
dist-upgrade
per proxmox 7 mateix
Enllaços a documentació rellevant
- Proxmox 6.x to 7
- Forçar canvi de
machine-id
- Ens ha sigut útil el report de la incidència anterior sobre quines VMs estaven enceses
Accionables
- Extreure d’aquí el procediment general d’actualitzacions de Proxmox, per la propera actualització
- Fer que
/var/lib/dbus/machine-id
i/etc/machine-id
coincideixin! - Documentar desactivar HA en actualitzacions
- Hem començat a treballar en un report generalitzat de les versions del programari que fa possible el cluster