Data Mining

John Samuel
CPE Lyon

Année: 2025-2026
Courriel: john.samuel@cpe.fr

Creative Commons License

Data Mining pour la Digitalisation des Procédés

Objectifs du cours (DP)

1.1. Pourquoi la donnée en Digitalisation des Procédés ?

Contexte métier

  1. Automatisation : capteurs + réseau informatique + communication machine/capteur.
  2. Utilisation croissante de la donnée (IoT) sur les lignes de production.
  3. Digitalisation des outils de production : supervision locale, historisation, ERP.
  4. Décision plus rapide : moins d'arrêts, meilleure qualité, gains de temps.
  5. Nouveau besoin de compétences : savoir lire, expliquer, et exploiter des mesures.
Schéma : du capteur à la décision
Schéma : du capteur à la décision

1.1. Chaîne numérique d'un procédé

Du capteur à l'action

  1. Capter : température, pression, pH, débit, viscosité, signaux UV/IR.
  2. Transmettre : communication capteurs -> réseau atelier -> serveur SI.
  3. Structurer : données horodatées, nettoyage, harmonisation d'unités.
  4. Intégrer : outils de production + ERP (qualité, maintenance, stocks, énergie).
  5. Visualiser : tableaux de bord et indicateurs (KPI).
  6. Agir : pilotage opérateur + règles machine + maintenance ciblée.
Schéma de la chaîne numérique d'un procédé
Chaîne du procédé : du capteur à l'action

1.1. Vocabulaire essentiel

Base commune (métier + pratique)

1.1. Cas procédé : fermentation et bioréacteurs

Exemple 1 : bioproduction

  • Variables captées : pH, pression, température, agitation, débit gaz/liquide.
  • Objectif process : maintenir une température constante et un état stable du bioréacteur.
  • EBS / pilotage machine : régler automatiquement des consignes selon les mesures.
  • Data mining : détecter dérive lente, lot atypique, risque de non-conformité.
  • Résultat attendu : qualité plus stable + moins d'essais perdus.
Fermentation et bioréacteur
Fermentation et bioréacteur

1.1. Cas procédé : plastique et purification

Exemple 2 : polymères et séparation

  • Plastique : suivi de la viscosité avec données expertes (matière, vitesse, température).
  • Purification : suivi débit + température + analyses UV/IR en ligne.
  • Interprétation : relier les courbes process à la qualité finale.
  • Troubleshooting : identifier rapidement une cause probable d'écart machine.
  • Décision : ajuster les paramètres avant rejet de lot.
Plastique et purification
Plastique et purification

1.1. SI pour les PME industrielles

Quels besoins ? Quels services ?

  1. Besoin 1 : centraliser la donnée atelier (capteurs, qualité, maintenance).
  2. Besoin 2 : partager l'information entre production, laboratoire et direction.
  3. Besoin 3 : relier l'atelier au SI (ERP, stock, commandes, achats).
  4. Services utiles : historisation, alertes, tableaux de bord, rapports automatiques.
  5. Approche pragmatique : commencer simple, puis étendre progressivement.

1.1. Lire et interpréter des données

Méthode simple pour débuter

  1. Vérifier la source : capteur, fréquence, unité, horodatage.
  2. Vérifier la qualité : valeurs manquantes, incohérences, pics anormaux.
  3. Comparer : lot actuel vs lots précédents, jour vs nuit, machine A vs B.
  4. Relier au terrain : événement opérateur, changement matière, maintenance.
  5. Conclure clairement : cause probable, action proposée, vérification.

Objectif : transformer des chiffres en décisions métier.

1.1. Pilotage par tableaux de bord

Indicateurs pour l'atelier

1.1. Énergie: mesurer, limiter, prévoir

Écologie industrielle: énergie et impact

1.1. Sécurité des données industrielles

Risques de fuite et protections minimales

1.1. Nouveaux procédés numériques

Simulation, jumeaux numériques et RA/VR

  • Jumeau numérique : copie virtuelle d'un équipement ou d'une ligne.
  • Objectif : tester des réglages avant l'essai réel.
  • Calibration : aligner le modèle avec les données capteurs (température, pH, pression, débit).
  • Scenario planning : comparer plusieurs options de pilotage en quelques minutes.
  • RA/VR : former les opérateurs sur des procédures critiques sans exposition au risque.
  • Cas sensibles : nucléaire, chimie, bioréacteurs, zones ATEX.
Workflow jumeau numérique
Du capteur au scenario de décision

1.2. Acquisition et stockage des données

Data mining appliqué aux procédés

  1. Données capteurs : température, pression, pH, débit, vibration, UV/IR.
  2. Données SI/ERP : lots, ordres de fabrication, maintenance, consommation énergie.
  3. Données laboratoire : mesures qualité, analyses, commentaires experts.
  4. Données structurées : base solide pour analyses fiables et reproductibles.
  5. Chimiométrie (Azuread / outils analytiques) : courbes, liens entre paramètres, plan d'expérience.
  6. Internet + IA : nombreuses sources et outils, mais validation métier obligatoire.
  7. Question future : l'IA peut-elle faire ces travaux seule ? Non, sans expertise terrain.
  8. Machine Learning : gagner du temps et optimiser énergie + temps de production.
Schéma d'acquisition et de stockage des données
Acquisition et stockage des données industrielles

1.2. Formats de stockage des données (contexte procédé)

1.2.1. Formats les plus utilisés en atelier

1.2. Format JSON

Exemple JSON (données IoT de procédé)

Format léger basé sur des paires clé-valeur, pratique pour capteurs connectés et supervision.

[
  {
    "timestamp": "2025-09-10T08:15:00",
    "reacteur": "BR-02",
    "ph": 6.8,
    "pression_bar": 1.2,
    "temperature_c": 37.0
  },
  {
    "timestamp": "2025-09-10T08:20:00",
    "reacteur": "BR-02",
    "ph": 6.7,
    "pression_bar": 1.3,
    "temperature_c": 37.1
  }
]
                

1.2. Format XML

Exemple XML (ordre de fabrication)

Format hiérarchique utilisé dans plusieurs logiciels industriels et échanges inter-systèmes.

<ordreFabrication id="OF-2025-347">
  <lot>L-0925-A</lot>
  <produit>Solution Fermentee</produit>
  <consignes>
    <temperature_c>37</temperature_c>
    <ph_cible>6.8</ph_cible>
  </consignes>
  <mesures>
    <pression_bar>1.2</pression_bar>
    <debit_l_h>45</debit_l_h>
  </mesures>
</ordreFabrication>
                

1.2. Format CSV

Exemple CSV (suivi dans le temps)

Format simple pour commencer les analyses dans un tableur.

timestamp,machine,ph,pression_bar,temperature_c,debit_l_h,energie_kwh
2025-09-10T08:15:00,BR-02,6.8,1.2,37.0,45,12.4
2025-09-10T08:20:00,BR-02,6.7,1.3,37.1,44,12.8
2025-09-10T08:25:00,BR-02,6.6,1.4,37.3,43,13.5
                

1.2. Types de données en digitalisation

Structurées, semi-structurées, non structurées

  1. Structurées : tableaux SQL/ERP/LIMS (meilleures pour le pilotage régulier).
  2. Semi-structurées : JSON/XML (intégration flexible entre outils).
  3. Non structurées : images, commentaires opérateurs, rapports PDF.

Règle pratique : plus la donnée est structurée, plus l'analyse est rapide et fiable.

Architecture des types de données
Structurées, semi-structurées, non structurées

1.2. De la donnée à la pratique métier

Protocoles, plan d'expérience et opérations

1.2. Acquisition et stockage des données

1.2.3. Bases de données : choix pragmatique

  • SQL relationnel : idéal pour les données structurées de production.
  • NoSQL : utile pour des flux IoT volumineux et hétérogènes.
  • Règle simple : commencer par SQL + exports CSV si l'équipe débute.
  • Objectif : fiabilité, traçabilité, et partage inter-services.
Schéma : stockage atelier, SQL et ERP
Schéma : stockage atelier, SQL et ERP

1.2. Acquisition et stockage des données

1.2.3. CAP expliqué sans jargon

  • Cohérence : tout le monde voit la même valeur.
  • Disponibilité : le système répond rapidement.
  • Tolérance aux pannes réseau : le système continue malgré une coupure.
  • En pratique : en atelier, on cherche d'abord disponibilité + robustesse.
Compromis CAP en contexte industriel
Compromis CAP en contexte industriel

1.2. Acquisition et stockage des données

1.2.3. Compromis terrain

1.2. Acquisition et stockage des données

1.2.3. BASE en contexte industriel

  • Basically Available : l'atelier doit rester observable.
  • Soft State : certaines valeurs peuvent être temporaires.
  • Eventually Consistent : l'historique devient cohérent après synchronisation.
  • Usage : utile pour l'IoT distribué multi-lignes.
Architecture de données industrielle
Architecture de données industrielle

1.2. Acquisition et stockage des données

1.2.3. NoSQL : quand l'utiliser ?

1.2. Acquisition et stockage des données

1.2.3. NoSQL : limites à connaître

1.2. Acquisition et stockage des données

1.2.3. Types NoSQL (vue simple)

1.2. Acquisition et stockage des données

1.2.4. Base relationnelle en atelier

1.2. Acquisition et stockage des données

1.2.4. Exemple table: mesures de procédé

timestamp machine variable valeur unité
08:15 BR-02 pH 6.8 -
08:15 BR-02 Température 37.0 C
08:15 BR-02 Pression 1.2 bar

1.2. Acquisition et stockage des données

1.2.4. Qualité des schémas

1.2. Acquisition et stockage des données

1.2.5. Gouvernance des données

1.2. Acquisition et stockage des données

1.2.5. Historisation utile

1.2. Acquisition et stockage des données

1.2.5. Données structurées vs notes libres

1.2. Acquisition et stockage des données

1.2.6. Sécurité des données process

1.2. Acquisition et stockage des données

1.2.7. Résumé : stockage en DP

  1. Structurer les données dès la capture.
  2. Choisir un stockage simple et maintenable.
  3. Sécuriser et tracer les accès.
  4. Relier atelier, laboratoire et ERP.

1.3. Extraction et intégration des données

1.3. Extraction : de la machine à l'analyse

  • Sources : PLC/SCADA, fichiers CSV, ERP, LIMS.
  • Formater des exports homogènes.
  • Synchroniser les horodatages.
  • Préparer une table de travail claire.
Schéma : intégration multi-sources
Schéma : intégration multi-sources

1.3. Extraction et intégration des données

1.3. Intégration multi-sources

  • Relier mesures capteurs et numéros de lot.
  • Ajouter les événements opérateur et maintenance.
  • Intégrer les résultats labo (UV, IR, viscosité, pH).
  • Éviter les doublons et conflits de versions.
Intégration multi-sources
Intégration multi-sources

1.3. Extraction et intégration des données

1.3. Identifiants clés

  • Un identifiant unique de lot.
  • Un identifiant machine/ligne.
  • Un horodatage fiable et fuseau défini.
  • Ces clés simplifient toutes les jointures.
Identifiants clés pour l'intégration des données
Clés de jointure entre les sources

1.3. Extraction et intégration des données

1.3. Exemple d'intégration

  1. Exporter les mesures minute par minute.
  2. Importer les non-conformités ERP.
  3. Joindre sur lot + machine + période.
  4. Produire un tableau de bord par lot.

1.3. Extraction et intégration des données

1.3. Pièges fréquents

1.4. Prétraitement des données

1.4. Pourquoi prétraiter ?

  • Des données brutes donnent des conclusions trompeuses.
  • Le prétraitement améliore qualité et confiance.
  • Il réduit le bruit des capteurs.
  • Il facilite l'interprétation métier.
Schéma : prétraitement des données
Schéma : prétraitement des données

1.4. Prétraitement des données

1.4. Nettoyage

  • Retirer doublons exacts.
  • Corriger formats de date et séparateurs.
  • Gérer les valeurs manquantes explicitement.
  • Conserver un journal des corrections.
Qualité des données avant analyse
Qualité des données avant analyse

1.4. Prétraitement des données

1.4. Valeurs aberrantes

  • Détecter les pics impossibles physiquement.
  • Comparer aux limites process connues.
  • Marquer au lieu de supprimer aveuglément.
  • Vérifier cause: capteur, saisie, incident réel.
Valeurs aberrantes et qualité des données
Détection des valeurs aberrantes

1.4. Prétraitement des données

1.4. Données manquantes

  • Causes : panne capteur, réseau, arrêt ligne.
  • Choix: interpolation, suppression, ou maintien.
  • La méthode dépend du contexte procédé.
  • Toujours documenter la méthode retenue.
Gestion des données manquantes
Gestion des données manquantes

1.4. Prétraitement des données

1.4. Mise à l'échelle

1.4. Prétraitement des données

1.4. Lissage temporel

1.4. Prétraitement des données

1.4. Encodage des catégories

1.4. Prétraitement des données

1.4. Prétraitement des spectres (UV/IR)

1.4. Prétraitement des données

1.4. Contrôle qualité des datasets

1.4. Prétraitement des données

1.4. Résumé prétraitement

  1. Nettoyer.
  2. Structurer.
  3. Documenter.
  4. Valider avec le métier.

1.5. Transformation des données

1.5. Transformer pour décider

  • Créer des variables utiles : moyennes, dérivées, ratios.
  • Passer de données brutes à indicateurs actionnables.
  • Relier transformation à une question métier.
  • Exemple : kWh par lot, débit moyen, variabilité pH.
Schéma : transformation vers KPI
Schéma : transformation vers KPI

1.6. ETL

1.6. ETL en contexte procédés

  • Extract: capteurs, ERP, laboratoire.
  • Transform: nettoyage, harmonisation, enrichissement.
  • Load: base analytique ou entrepôt de données.
  • But: analyses fiables et répétables.
Schéma : cycle ETL
Schéma : cycle ETL

1.6. ETL

1.6. Étape Extract

  • Planifier des extractions automatiques.
  • Contrôler le volume et la fréquence.
  • Gérer les erreurs réseau et la reprise.
  • Horodater chaque extraction.
Étape Extract
Étape Extract

1.6. ETL

1.6. Étape Transform

  • Unifier unités et formats.
  • Fusionner sources autour du lot.
  • Créer des indicateurs de pilotage.
  • Ajouter règles de qualité de données.
Étape Transform de l'ETL
Transform : harmoniser et enrichir les données

1.6. ETL

1.6. Étape Load

1.6. ETL

1.6. ETL et dashboards

  • Alimenter KPIs en quasi temps réel.
  • Suivre rendement, qualité, énergie.
  • Afficher alertes et écarts.
  • Permettre drill-down par lot ou machine.
Alimentation des dashboards
Alimentation des dashboards

1.6. ETL

1.6. ETL et ERP

1.6. ETL

1.6. ETL pour l'énergie

  • Consolider les compteurs électriques et les données de production.
  • Calculer l'intensité énergétique par produit.
  • Identifier périodes de surconsommation.
  • Aider à la prévision énergétique.
Prévision de consommation d'énergie
Prévision de consommation énergie

1.6. ETL

1.6. ETL pour maintenance

1.6. ETL

1.6. ETL et sécurité des données

1.6. ETL

1.6. Orchestration simple

1.6. ETL

1.6. Résumé ETL

  1. Standardiser les flux.
  2. Assurer qualité et traçabilité.
  3. Servir dashboards, ERP et analyses.
  4. Créer une base solide pour l'IA/ML.

1.7. Analyse des données

1.7. Analyse descriptive pour opérateurs

  • Comparer lots conformes et non conformes.
  • Suivre tendances temporelles.
  • Identifier variables les plus influentes.
  • Produire des recommandations simples.
Schéma : niveaux d'analyse
Schéma : niveaux d'analyse

1.7. Analyse des données

1.7. Vers le Machine Learning (sans complexité inutile)

  • Classification : lot conforme / à risque.
  • Régression : prévoir consommation énergie.
  • Détection d'anomalies : comportements machine atypiques.
  • Le modèle assiste la décision, il ne remplace pas l'expertise.
Classification conforme / a risque
Classification conforme / à risque

1.8. Visualisation des données

1.8. Visualiser pour agir

  • Une visualisation = une décision possible.
  • Limiter le nombre de graphiques par écran.
  • Utiliser les mêmes couleurs et unités partout.
  • Rendre la lecture immédiate pour l'atelier.
Schéma : vue dashboard industriel
Schéma : vue dashboard industriel

1.8. Visualisation des données

1.8. Graphiques utiles en procédés

  • Séries temporelles : suivi pH/pression/température.
  • Histogrammes: distribution des lots.
  • Boites à moustaches: variabilité par machine.
  • Nuages de points: relation entre paramètres.
Types de visualisation
Types de visualisation utiles

1.8. Visualisation des données

1.8. Corrélations et causes possibles

  • La corrélation n'implique pas la causalité.
  • Croiser avec le contexte terrain et le journal opérateur.
  • Vérifier sur plusieurs lots.
  • Confirmer par essais contrôlés.
Corrélations et visualisation
Corrélations : interprétation avec prudence

1.8. Visualisation des données

1.8. Dashboard production

  • KPI clés : débit, taux de rebut, disponibilité.
  • Vue par ligne puis détail machine.
  • Alertes visuelles sur seuils critiques.
  • Historique des écarts sur 24h/7j.
Tableau de bord de production
Vue production : ligne et machine

1.8. Visualisation des données

1.8. Dashboard énergie

  • Consommation instantanée et cumulée.
  • kWh par lot / par unité produite.
  • Prévision journalière et écart à la cible.
  • Détection des périodes inefficaces.
Tableau de bord énergie et prévision
Suivi énergie et prévisions

1.8. Visualisation des données

1.8. Dashboard qualité

1.8. Visualisation des données

1.8. Dashboard maintenance

1.8. Visualisation des données

1.8. Cartes thermiques process

1.8. Visualisation des données

1.8. Chimiométrie : courbes et plans d'expérience

1.8. Visualisation des données

1.8. Jumeaux numériques et simulation

  • Créer un modèle virtuel basé sur les données historiques et temps réel.
  • Simuler des changements de consigne avant production.
  • Estimer l'impact sur la qualité, l'énergie, le débit et la stabilité.
  • Identifier les zones de risque (surchauffe, dérive pH, surpression).
  • Comparer plusieurs stratégies de pilotage machine.
  • Réduire les essais physiques coûteux.
  • Faciliter l'explication des décisions aux équipes terrain.
Jumeau numérique et simulation
Simulation guidée par les données process

1.8. Visualisation des données

1.8. RA/VR pour formation, sécurité et responsabilité

  • Construire des TP virtuels pour procédures critiques.
  • Former sans exposition directe au risque industriel.
  • Mesurer les performances : temps de réaction, erreurs, conformité.
  • Réduire incidents, arrêts non planifiés et consommation inutile.
  • Point éthique : la simulation assiste la décision, elle ne remplace pas l’expertise humaine.
  • Point gouvernance : tracer les scénarios et les décisions prises.
Formation VR en procédés
Former sans risque, évaluer objectivement

1.9. Carte des outils pour débutants

Excel / Power BI / Python (Pandas) / SQL : quand utiliser quoi ?

Outil Quand l’utiliser Limite principale
Excel Exploration rapide, calculs simples, petits jeux de données. Peu robuste pour gros volumes et automatisation.
Power BI Dashboards, suivi KPI, partage avec production/management. Préparation complexe si données non nettoyées.
Python + Pandas Nettoyage, transformation, analyses reproductibles et scripts. Nécessite un minimum de rigueur code/version.
SQL Interroger des bases structurées, jointures, historisation. Moins adapté aux analyses avancées sans outil complémentaire.

Conseil de cours : commencer simple (Excel/SQL), puis passer à Python/Pandas et BI selon le besoin métier.

Note : le travail pratique est traité dans une autre séance dédiée.

Carte des outils pour débutants
Choisir l'outil selon le besoin métier

1.9. Limites de l’IA en industrie de procédés

Cas concrets où l’IA peut se tromper

  • Dérive capteur non détectée : le modèle apprend une fausse tendance.
  • Changement matière première : le comportement réel sort du domaine appris.
  • Peu de données d’incident : faux sentiment de sécurité sur les cas rares.
  • Défaut de causalité : corrélation forte mais mauvaise action terrain.
  • Biais opérationnel : une ligne de production domine les données d’apprentissage.
  • Boîte noire : décision difficile à expliquer lors d’un audit ou d’une non-conformité.

Règle : l’IA assiste la décision, mais la validation finale reste métier (opérateur + process + qualité).

Limites de l'IA en industrie de procédés
L'IA assiste, la validation métier reste indispensable

1.9. Contexte réglementaire et conformité

Traçabilité, auditabilité, rétention

  • Traçabilité : relier chaque mesure à un lot, une machine, un horodatage, une action.
  • Auditabilité : conserver qui a modifié quoi, quand, et pour quelle justification.
  • Rétention : définir des durées de conservation selon usage, risque et obligations.
  • Intégrité : empêcher les altérations non autorisées des données critiques.
  • Confidentialité : limiter l’accès aux recettes, paramètres sensibles et rapports qualité.
  • Preuve : pouvoir reconstruire l’historique d’un lot lors d’un incident.

Objectif : des données exploitables pour piloter, mais aussi défendables en contrôle ou audit.

Conformité et gouvernance des données
Traçabilité, auditabilité, rétention

1.10. Références

Articles de recherche

1.10. Références

Open Data, réglementation et pratiques

1.10. Références

Ressources outils

1.11. Glossaire

Termes industriels (1/2)

Terme Définition simple
ERP Logiciel qui relie achats, stocks, production, qualité et finance.
SCADA Supervision des équipements et visualisation en temps réel.
LIMS Système de gestion des analyses et résultats laboratoire.
OEE / TRS Indicateur global de performance d’une ligne de production.
MTBF Temps moyen entre deux pannes d’un équipement.
MTTR Temps moyen de réparation après panne.

1.11. Glossaire

Termes industriels (2/2)

Terme Définition simple
ATEX Zone à risque d’atmosphère explosive, avec exigences de sécurité.
ETL Extract-Transform-Load: pipeline de données pour analyse.
KPI Indicateur clé utilisé pour piloter la performance.
CAPEX Dépenses d’investissement (machines, infrastructures).
OPEX Dépenses opérationnelles (exploitation quotidienne).
Open Data Données publiées et réutilisables sous conditions de licence.