2024-07-09 16:00-20:09: Actualització a proxmox 7

evilham · 4 juliol 2024 11:55

ACTUACIÓ: Actualització a proxmox 7 (2024-07-09 16:00-20:09)

Resum


Tipus	Actuació
Inici	2024-07-09 14:00 (UTC)
Final	2024-07-09 18:09 (UTC)
Tíquet	#790
Alertes	No
Participen	@evilham, @dl.ramon, @exopedro, @dyangol, @jmoles, roger.garcia
Impacte	No s’esperen afectacions de servei, és una actualització esglaonada on no es toca equipament de xarxa i on la redundància de cluster s’assegura que els serveis estiguin en marxa. En cas de fallida, principalment podria afectar les màquines virtuals.
Reporten	@evilham, @exopedro

En reunió 2024-07-02 (#1118) fixem la data de l’actualització, basant-los en la disponibilitat d’@exo-servers i en el fet que la versió que tenim actualment deixarà de ser suportada aviat.

Pla d’actuació

1. Buidar de serveis un trax (comencem amb el 5)
2. Comprovacions:
- Comprovem que hi podem accedir als trax5-8 via OOB+IPMI
- trax3 també, però és una mica més estrany
- En cada trax: versions gluster (9) i pve + zfs
- descobert en problema durant actuació: Comprovar que els /etc/machine-id són tots diferents!
3. Primer fem apt update + apt dist-upgrade per estar a l’última
4. systemctl reboot
5. revisió estat general gluster
6. self-heal
7. Canvis de repo a bullseye (veure abaix)
- Tot de buster a bullseye (debian, gluster, pve)
- Atenció: deb http://security.debian.org/debian-security bullseye-security main contrib non-free
8. zfs snapshot -r rpool/ROOT@upgrade7
9. apt dist-upgrade
10. zfs set recordsize=4k vmpool
11. I saltem a kernel 5.19
12. reiniciem
13. Comprovem
14. Esperem que el self-heal apliqui, re-apliquem per següent trax

Línia de temps

Tots els temps en UTC.

14:00 INICI ACTUACIÓ
14:00 Posta al dia, consensuem el pla d’actuació.
15:02 trax5 actualitzat, deixem fent el self-heal
15:31 trax3 actualitzat, trax6 buidat
15:32 comencem amb trax6
15:58: INCIDÈNCIA global
- Identifiquem que el machine-id era compartit i això és un problema en Proxmox 7+ (trax5 i trax6)
- apliquem service netorking stop en trax6 per treure’l de la xarxa
16:05: FI INCIDÈNCIA global
16:05: INCIDÈNCIA EN VMs segueix activa
16:07: aixequem serveis bàsics de comunicació i comencem a revisar estat de cluster
16:10: comprovem que es va recuperant el gluster en trax6
16:10: forcem una re-generació del machine-id de trax6 fins trax8 (trax3 no cal)
10:14: anem recuperant els serveis de clients
16:33: FI INCIDÈNCIA en VMs, tots els serveis OK
16:37: @evilham marxa temporalment, trax7 està buit per poder començar amb la seva actualització
16:40: tornem a comprovar explícitament que tots els machine-ids són diferents
16:40: desactivem el HA mentre finalitzem les actualitzacions
16:46: continuem amb el procediment a trax7
17:03: amb trax7 acabat, comencem a buidar trax8
17:48: amb trax8 acabat, tornem a activar el HA
17:48: fem tasques de cleanup a tots els nodes
- apt autoremove
- apt dist-upgrade (llibreria ~~libgc1c2~~ → libgc1)
- neteja de snapshots antics
18:09 FINAL ACTUACIÓ

Possible millora d’alertes

Ha anat força bé!

Conclusions

L’actuació ha anat força bé dintre de la complexitat que té, amb una petita incidència que hem solucionat força ràpid

Què ha anat bé?

L’equip treballa molt bé junt <3
L’accés Out Of Band és molt bo i ha sigut crucial!

Què no ha anat bé?

Amb ser un dia de cada dia, estàvem cansats se’ns ha escapat afegir el check dels machine-id al pla

En què hem tingut sort?

Com que el problema dels machine-id era conegut, l’hem solucionat ràpid, si no, hagués pogut costar molt temps
Esperàvem una incidència amb els noms de les interfícies de xarxa, però ja està solucionat en el dist-upgrade per proxmox 7 mateix

Enllaços a documentació rellevant

Proxmox 6.x to 7
Forçar canvi de machine-id
Ens ha sigut útil el report de la incidència anterior sobre quines VMs estaven enceses

Accionables

Extreure d’aquí el procediment general d’actualitzacions de Proxmox, per la propera actualització
Fer que /var/lib/dbus/machine-id i /etc/machine-id coincideixin!
Documentar desactivar HA en actualitzacions
Hem començat a treballar en un report generalitzat de les versions del programari que fa possible el cluster