```dokuwiki id="sprint12-maintenance-observability"
====== Sprint 12 — Maintenance, Exploitation & Observabilité ======

===== Objectif du Sprint =====

Industrialiser l'exploitation de la plateforme afin de garantir :

  * Disponibilité
  * Performance
  * Traçabilité
  * Sécurité
  * Maintenabilité
  * Scalabilité

À l'issue du Sprint 12 :

  * Tous les services sont supervisés
  * Les logs sont centralisés
  * Les métriques sont collectées
  * Les alertes sont automatisées
  * Les sauvegardes sont vérifiées
  * Les incidents sont détectés rapidement
  * Les équipes disposent d'une visibilité complète sur la plateforme

Ce sprint clôture la phase d'industrialisation SaaS.

----

====== Périmètre ======

===== Modules concernés =====

<code>
MonitoringModule

LoggingModule

MetricsModule

AlertingModule

BackupModule

HealthCheckModule

TracingModule
</code>

----

====== Architecture cible ======

<code>
Frontend

↓

API Gateway

↓

NestJS API

↓

PostgreSQL

Redis

MinIO

↓

Observability Stack

├── Prometheus
├── Grafana
├── Loki
├── Tempo
└── AlertManager
</code>

----

====== User Stories ======

===== US-1201 : Vérifier la santé de la plateforme =====

**En tant qu'exploitant**

Je souhaite connaître l'état des services

Afin de détecter les incidents.

----

===== Endpoint =====

<code http>
GET /health
</code>

----

===== Réponse =====

<code json>
{
  "status": "UP",
  "services": {
    "database": "UP",
    "redis": "UP",
    "storage": "UP"
  }
}
</code>

----

====== US-1202 : Consulter les métriques système =====

===== Endpoint =====

<code http>
GET /metrics
</code>

----

===== Métriques =====

<code>
CPU

RAM

Disque

Réseau
</code>

----

====== US-1203 : Consulter les métriques applicatives =====

===== Indicateurs =====

<code>
Temps réponse API

Nombre requêtes

Nombre erreurs

Nombre connexions

Sessions actives
</code>

----

====== US-1204 : Consulter les métriques métier =====

===== KPI =====

<code>
Réservations

Paiements

Contrats

Clients

Propriétaires
</code>

----

====== Journalisation ======

===== US-1205 : Centraliser les logs =====

===== Format =====

<code json>
{
  "timestamp": "",
  "level": "",
  "service": "",
  "traceId": "",
  "message": ""
}
</code>

----

===== Niveaux =====

<code>
DEBUG

INFO

WARN

ERROR

FATAL
</code>

----

====== US-1206 : Rechercher dans les logs =====

===== Filtres =====

<code>
Service

Utilisateur

Date

TraceId

Niveau
</code>

----

====== Traces distribuées ======

===== US-1207 : Tracer une requête =====

===== Objectif =====

Suivre une requête de bout en bout.

----

===== Exemple =====

<code>
Frontend

↓

API

↓

PostgreSQL

↓

Stripe

↓

SMTP
</code>

----

===== Technologie =====

<code>
OpenTelemetry
</code>

----

====== Alertes ======

===== US-1208 : Déclencher une alerte =====

===== Conditions =====

<code>
Erreur API

CPU élevé

RAM élevée

Base indisponible

Temps réponse élevé
</code>

----

===== Notification =====

<code>
Email

Slack

Microsoft Teams

Webhook
</code>

----

====== US-1209 : Gérer les règles d'alerte =====

===== Exemple =====

<code>
CPU > 80 %

pendant

5 minutes
</code>

----

====== Sauvegardes ======

===== US-1210 : Sauvegarde PostgreSQL =====

===== Fréquence =====

<code>
Quotidienne

Hebdomadaire

Mensuelle
</code>

----

===== Conservation =====

<code>
30 jours

90 jours

1 an
</code>

----

====== US-1211 : Sauvegarde stockage documentaire =====

===== Sources =====

<code>
MinIO

S3
</code>

----

====== US-1212 : Restaurer une sauvegarde =====

===== Objectif =====

Garantir le PRA.

----

===== Contrôle =====

<code>
Tests mensuels de restauration
</code>

----

====== Disponibilité ======

===== US-1213 : Vérification SLA =====

===== Objectif =====

Mesurer la disponibilité.

----

===== KPI =====

<code>
99.9 %
</code>

----

===== Calcul =====

:contentReference[oaicite:0]{index=0}

----

====== US-1214 : Tableau de bord exploitation =====

===== Widgets =====

<code>
Disponibilité

CPU

RAM

Erreurs

Temps réponse

Base données
</code>

----

====== Sécurité opérationnelle ======

===== US-1215 : Détecter les anomalies =====

===== Cas =====

<code>
Tentatives de connexion

Erreurs répétées

Pics d'activité

Échecs paiement
</code>

----

====== US-1216 : Journal sécurité =====

===== Informations =====

<code>
Connexion

Déconnexion

Changement mot de passe

Permissions

Administration
</code>

----

====== Modèle Prisma ======

===== SystemMetric =====

<code prisma>
model SystemMetric {

  id            String @id @default(uuid())

  metricName    String

  metricValue   Decimal

  collectedAt   DateTime
}
</code>

----

===== Alert =====

<code prisma>
model Alert {

  id            String @id @default(uuid())

  severity      String

  title         String

  description   String

  triggeredAt   DateTime

  resolvedAt    DateTime?
}
</code>

----

===== BackupExecution =====

<code prisma>
model BackupExecution {

  id            String @id @default(uuid())

  backupType    String

  status        String

  startedAt     DateTime

  completedAt   DateTime?
}
</code>

----

====== Architecture Backend ======

<code>
src/modules/operations

├── monitoring
│
├── logging
│
├── metrics
│
├── tracing
│
├── alerting
│
├── backups
│
└── health
</code>

----

====== Stack Technique ======

===== Monitoring =====

<code>
Prometheus

Grafana
</code>

----

===== Logs =====

<code>
Loki

Grafana
</code>

----

===== Traces =====

<code>
Tempo

OpenTelemetry
</code>

----

===== Alertes =====

<code>
AlertManager
</code>

----

====== Dashboards Grafana ======

===== Dashboard Infrastructure =====

<code>
CPU

RAM

Stockage

Réseau

Pods Kubernetes
</code>

----

===== Dashboard API =====

<code>
Temps réponse

Nombre requêtes

Erreurs

Endpoints les plus utilisés
</code>

----

===== Dashboard Métier =====

<code>
Réservations

Paiements

Contrats

CA

Occupation
</code>

----

====== Swagger ======

===== Tags =====

<code>
Monitoring

Metrics

Health

Alerting

Backups
</code>

----

===== Volume API =====

Environ :

<code>
15 endpoints
</code>

----

====== Frontend ======

===== Pages =====

<code>
/admin/monitoring

/admin/metrics

/admin/logs

/admin/alerts

/admin/backups

/admin/health
</code>

----

===== Composants =====

<code>
HealthStatusCard

MetricChart

AlertTable

BackupHistory

LogExplorer

SystemDashboard
</code>

----

====== Tests ======

===== Unitaires =====

<code>
HealthService

MetricsService

AlertService

BackupService
</code>

----

===== Intégration =====

<code>
API

↓

Métriques

↓

Prometheus

↓

Grafana
</code>

----

===== E2E =====

<code>
Incident simulé

↓

Alerte

↓

Notification

↓

Résolution

↓

Historisation
</code>

----

====== Définition de terminé ======

Le Sprint 12 est terminé lorsque :

  * Monitoring opérationnel
  * Logs centralisés
  * Métriques collectées
  * Alertes configurées
  * Sauvegardes automatisées
  * Traces distribuées opérationnelles
  * Dashboards Grafana disponibles
  * Swagger à jour
  * Tests verts
  * CI verte

----

====== Livrables ======

  * MonitoringModule
  * LoggingModule
  * MetricsModule
  * TracingModule
  * AlertingModule
  * BackupModule
  * HealthCheckModule
  * Dashboards Grafana
  * AlertManager
  * DTO
  * Tests

----

====== Bilan Release 2.2 ======

À l'issue du Sprint 12 :

  * Plateforme SaaS exploitable en production
  * Observabilité complète
  * Supervision temps réel
  * PRA/PCA opérationnels
  * Monitoring métier et technique
  * Alerting automatisé

La plateforme atteint un niveau de maturité compatible avec une exploitation multi-agences à grande échelle.

----

====== Sprint suivant ======

===== Sprint 13 — Optimisation, IA & Automatisation =====

Objectif :

Augmenter la productivité des équipes grâce à l'automatisation et à l'intelligence artificielle.

Modules concernés :

<code>
AutomationModule

RecommendationModule

AiAssistantModule

ForecastingModule

DocumentAnalysisModule
</code>

Fonctionnalités :

  * Suggestions automatiques
  * Prévisions avancées
  * Assistant IA interne
  * Analyse documentaire
  * Aide à la décision
  * Automatisation métier

À l'issue du Sprint 13, la plateforme commencera à intégrer des fonctionnalités d'assistance intelligente à forte valeur ajoutée.
```