2024-07-09 16:00-20:09: Actualització a proxmox 7

ACTUACIÓ: Actualització a proxmox 7 (2024-07-09 16:00-20:09)

Resum

Tipus Actuació
Inici 2024-07-09 14:00 (UTC)
Final 2024-07-09 18:09 (UTC)
Tíquet #790
Alertes No
Participen @evilham, @dl.ramon, @exopedro, @dyangol, @jmoles, roger.garcia
Impacte No s’esperen afectacions de servei, és una actualització esglaonada on no es toca equipament de xarxa i on la redundància de cluster s’assegura que els serveis estiguin en marxa. En cas de fallida, principalment podria afectar les màquines virtuals.
Reporten @evilham, @exopedro

En reunió 2024-07-02 (#1118) fixem la data de l’actualització, basant-los en la disponibilitat d’@exo-servers i en el fet que la versió que tenim actualment deixarà de ser suportada aviat.

Pla d’actuació

  • 1. Buidar de serveis un trax (comencem amb el 5)
  • 2. Comprovacions:
    • Comprovem que hi podem accedir als trax5-8 via OOB+IPMI
    • trax3 també, però és una mica més estrany
    • En cada trax: versions gluster (9) i pve + zfs
    • descobert en problema durant actuació: Comprovar que els /etc/machine-id són tots diferents!
  • 3. Primer fem apt update + apt dist-upgrade per estar a l’última
  • 4. systemctl reboot
  • 5. revisió estat general gluster
  • 6. self-heal
  • 7. Canvis de repo a bullseye (veure abaix)
    • Tot de buster a bullseye (debian, gluster, pve)
    • Atenció: deb http://security.debian.org/debian-security bullseye-security main contrib non-free
  • 8. zfs snapshot -r rpool/ROOT@upgrade7
  • 9. apt dist-upgrade
  • 10. zfs set recordsize=4k vmpool
  • 11. I saltem a kernel 5.19
  • 12. reiniciem
  • 13. Comprovem
  • 14. Esperem que el self-heal apliqui, re-apliquem per següent trax

Línia de temps

Tots els temps en UTC.

  • 14:00 INICI ACTUACIÓ
  • 14:00 Posta al dia, consensuem el pla d’actuació.
  • 15:02 trax5 actualitzat, deixem fent el self-heal
  • 15:31 trax3 actualitzat, trax6 buidat
  • 15:32 comencem amb trax6
  • 15:58: INCIDÈNCIA global
    • Identifiquem que el machine-id era compartit i això és un problema en Proxmox 7+ (trax5 i trax6)
    • apliquem service netorking stop en trax6 per treure’l de la xarxa
  • 16:05: FI INCIDÈNCIA global
  • 16:05: INCIDÈNCIA EN VMs segueix activa
  • 16:07: aixequem serveis bàsics de comunicació i comencem a revisar estat de cluster
  • 16:10: comprovem que es va recuperant el gluster en trax6
  • 16:10: forcem una re-generació del machine-id de trax6 fins trax8 (trax3 no cal)
  • 10:14: anem recuperant els serveis de clients
  • 16:33: FI INCIDÈNCIA en VMs, tots els serveis OK
  • 16:37: @evilham marxa temporalment, trax7 està buit per poder començar amb la seva actualització
  • 16:40: tornem a comprovar explícitament que tots els machine-ids són diferents
  • 16:40: desactivem el HA mentre finalitzem les actualitzacions
  • 16:46: continuem amb el procediment a trax7
  • 17:03: amb trax7 acabat, comencem a buidar trax8
  • 17:48: amb trax8 acabat, tornem a activar el HA
  • 17:48: fem tasques de cleanup a tots els nodes
    • apt autoremove
    • apt dist-upgrade (llibreria libgc1c2libgc1)
    • neteja de snapshots antics
  • 18:09 FINAL ACTUACIÓ

Possible millora d’alertes

Ha anat força bé!

Conclusions

  • L’actuació ha anat força bé dintre de la complexitat que té, amb una petita incidència que hem solucionat força ràpid

Què ha anat bé?

  • L’equip treballa molt bé junt <3
  • L’accés Out Of Band és molt bo i ha sigut crucial!

Què no ha anat bé?

  • Amb ser un dia de cada dia, estàvem cansats se’ns ha escapat afegir el check dels machine-id al pla

En què hem tingut sort?

  • Com que el problema dels machine-id era conegut, l’hem solucionat ràpid, si no, hagués pogut costar molt temps
  • Esperàvem una incidència amb els noms de les interfícies de xarxa, però ja està solucionat en el dist-upgrade per proxmox 7 mateix

Enllaços a documentació rellevant

Accionables

  • Extreure d’aquí el procediment general d’actualitzacions de Proxmox, per la propera actualització
  • Fer que /var/lib/dbus/machine-id i /etc/machine-id coincideixin!
  • Documentar desactivar HA en actualitzacions
  • Hem començat a treballar en un report generalitzat de les versions del programari que fa possible el cluster