ACTUACIÓ: Actualització a proxmox 7 (2024-07-09 16:00-20:09)
Resum
| Tipus | Actuació |
| Inici | 2024-07-09 14:00 (UTC) |
| Final | 2024-07-09 18:09 (UTC) |
| Tíquet | #790 |
| Alertes | No |
| Participen | @evilham, @dl.ramon, @exopedro, @dyangol, @jmoles, roger.garcia |
| Impacte | No s’esperen afectacions de servei, és una actualització esglaonada on no es toca equipament de xarxa i on la redundància de cluster s’assegura que els serveis estiguin en marxa. En cas de fallida, principalment podria afectar les màquines virtuals. |
| Reporten | @evilham, @exopedro |
En reunió 2024-07-02 (#1118) fixem la data de l’actualització, basant-los en la disponibilitat d’@exo-servers i en el fet que la versió que tenim actualment deixarà de ser suportada aviat.
Pla d’actuació
- 1. Buidar de serveis un trax (comencem amb el 5)
- 2. Comprovacions:
- Comprovem que hi podem accedir als trax5-8 via OOB+IPMI
- trax3 també, però és una mica més estrany
- En cada trax: versions gluster (9) i pve + zfs
- descobert en problema durant actuació: Comprovar que els
/etc/machine-idsón tots diferents!
- 3. Primer fem
apt update+apt dist-upgradeper estar a l’última - 4.
systemctl reboot - 5. revisió estat general gluster
- 6. self-heal
- 7. Canvis de repo a bullseye (veure abaix)
- Tot de
busterabullseye(debian,gluster,pve) - Atenció:
deb http://security.debian.org/debian-security bullseye-security main contrib non-free
- Tot de
- 8.
zfs snapshot -r rpool/ROOT@upgrade7 - 9.
apt dist-upgrade - 10.
zfs set recordsize=4k vmpool - 11. I saltem a kernel 5.19
- 12. reiniciem
- 13. Comprovem
- 14. Esperem que el self-heal apliqui, re-apliquem per següent trax
Línia de temps
Tots els temps en UTC.
- 14:00 INICI ACTUACIÓ
- 14:00 Posta al dia, consensuem el pla d’actuació.
- 15:02 trax5 actualitzat, deixem fent el self-heal
- 15:31 trax3 actualitzat, trax6 buidat
- 15:32 comencem amb trax6
- 15:58: INCIDÈNCIA global
- Identifiquem que el
machine-idera compartit i això és un problema en Proxmox 7+ (trax5itrax6) - apliquem
service netorking stopentrax6per treure’l de la xarxa
- Identifiquem que el
- 16:05: FI INCIDÈNCIA global
- 16:05: INCIDÈNCIA EN VMs segueix activa
- 16:07: aixequem serveis bàsics de comunicació i comencem a revisar estat de cluster
- 16:10: comprovem que es va recuperant el gluster en
trax6 - 16:10: forcem una re-generació del
machine-iddetrax6finstrax8(trax3no cal) - 10:14: anem recuperant els serveis de clients
- 16:33: FI INCIDÈNCIA en VMs, tots els serveis OK
- 16:37: @evilham marxa temporalment,
trax7està buit per poder començar amb la seva actualització - 16:40: tornem a comprovar explícitament que tots els
machine-idssón diferents - 16:40: desactivem el HA mentre finalitzem les actualitzacions
- 16:46: continuem amb el procediment a
trax7 - 17:03: amb
trax7acabat, comencem a buidartrax8 - 17:48: amb
trax8acabat, tornem a activar el HA - 17:48: fem tasques de cleanup a tots els nodes
-
apt autoremove -
apt dist-upgrade(llibrerialibgc1c2→libgc1) - neteja de snapshots antics
-
- 18:09 FINAL ACTUACIÓ
Possible millora d’alertes
Ha anat força bé!
Conclusions
- L’actuació ha anat força bé dintre de la complexitat que té, amb una petita incidència que hem solucionat força ràpid
Què ha anat bé?
- L’equip treballa molt bé junt <3
- L’accés Out Of Band és molt bo i ha sigut crucial!
Què no ha anat bé?
- Amb ser un dia de cada dia, estàvem cansats se’ns ha escapat afegir el check dels
machine-idal pla
En què hem tingut sort?
- Com que el problema dels
machine-idera conegut, l’hem solucionat ràpid, si no, hagués pogut costar molt temps - Esperàvem una incidència amb els noms de les interfícies de xarxa, però ja està solucionat en el
dist-upgradeper proxmox 7 mateix
Enllaços a documentació rellevant
- Proxmox 6.x to 7
- Forçar canvi de
machine-id - Ens ha sigut útil el report de la incidència anterior sobre quines VMs estaven enceses
Accionables
- Extreure d’aquí el procediment general d’actualitzacions de Proxmox, per la propera actualització
- Fer que
/var/lib/dbus/machine-idi/etc/machine-idcoincideixin! - Documentar desactivar HA en actualitzacions
- Hem començat a treballar en un report generalitzat de les versions del programari que fa possible el cluster