Observabilité des déploiements : logs, métriques, alertes

Déployer, c’est bien. Savoir si le déploiement a réussi et si l’app tourne correctement, c’est indispensable. Voici comment structurer l’observabilité autour de la CI/CD.

Pourquoi observer après un déploiement

Détecter tout de suite une régression (erreurs 5xx, latence, crashs).
Savoir "qui a déployé quoi et quand" (audit).
Réduire le temps entre un problème et sa correction (rollback ou fix).

Logs de déploiement

La CI/CD doit logger : version déployée, environnement, heure, utilisateur ou job.
Centraliser ces logs (même endroit que les logs applicatifs) pour retrouver facilement le contexte d’un incident.
En GitOps : les commits et l’historique Git servent déjà de trace ; tu peux en plus envoyer un résumé vers un outil (Slack, email, outil de monitoring).

Métriques utiles

Taux d’erreur (4xx/5xx) avant / après déploiement.
Latence (p50, p95, p99) pour voir une dégradation.
Débit (requêtes/s) pour vérifier que le trafic arrive bien sur la nouvelle version.
Métriques applicatives : file d’attente, jobs, connexions DB, etc.

Idéal : des dashboards "avant / après release" ou des comparaisons courtes (ex. 5 min avant vs 5 min après).

Health checks et readiness

En Kubernetes : readiness et liveness probes pour que le cluster ne route pas le trafic vers un pod pas prêt ou mort.
En dehors de K8s : endpoint /health ou équivalent, surveillé par un load balancer ou un outil de monitoring.
Après un déploiement, attendre que les health checks soient verts avant de considérer le release réussi (et éventuellement couper l’ancienne version).

Alertes post-déploiement

Alertes sur erreurs, latence, crashs, avec une fenêtre courte après un déploiement (ex. 10–15 min).
Lier l’alerte au déploiement (lien vers le job CI, le commit, le tag) pour faciliter le rollback ou l’analyse.
Éviter le bruit : seuils adaptés, regroupement des alertes, pour ne pas noyer l’équipe.

Bonnes pratiques

Canary / blue-green : observer la nouvelle version avant de basculer tout le trafic.
Runbook : documenter ce qu’il faut faire en cas d’alerte (rollback, qui prévenir, quelles commandes).
Post-mortem : après un incident lié à un déploiement, faire un retour pour améliorer tests, seuils ou processus.

En résumé

Logger chaque déploiement (version, env, heure) et centraliser.
Suivre métriques (erreurs, latence, débit) avant et après release.
S’appuyer sur health checks (readiness/liveness) pour la stabilité.
Alertes ciblées + runbook + post-mortem pour réagir vite et améliorer.

Fin de la série CI/CD : tu as maintenant une vue complète du commit à la production, avec pipelines, tests, build, secrets, déploiement (K8s, GitOps), versioning, rollbacks et observabilité.

Observabilité des déploiements : logs, métriques, alertes

Observabilité des déploiements : logs, métriques, alertes

Pourquoi observer après un déploiement

Logs de déploiement

Métriques utiles

Health checks et readiness

Alertes post-déploiement

Bonnes pratiques

En résumé

Articles recommandés

Versioning, releases et rollbacks : livrer sans casser

GitOps : déployer avec Argo CD ou Flux (et arrêter les kubectl à la main)

CI/CD sur Kubernetes : stratégies de déploiement (rolling, blue/green, canary)

CI/CD : pipeline GitLab CI complet (stages, cache, déploiement)