Data Mining

John Samuel
CPE Lyon

Année: 2025-2026
Courriel: john.samuel@cpe.fr

Objectifs du cours (DP)

Comprendre le rôle de la donnée dans les outils de production et les PME.
Lire et interpréter des données sans prérequis fort en informatique.
Mettre en place une chaîne simple : capteurs, réseau, stockage, tableau de bord, décision.
Piloter un procédé avec des indicateurs (qualité, débit, température, énergie, temps).
Identifier des risques : dérive process, pannes, fuites de données, surconsommation.
Utiliser des outils de base (pandas, visualisation, IA/ML appliquée).

Contexte métier

Automatisation : capteurs + réseau informatique + communication machine/capteur.
Utilisation croissante de la donnée (IoT) sur les lignes de production.
Digitalisation des outils de production : supervision locale, historisation, ERP.
Décision plus rapide : moins d'arrêts, meilleure qualité, gains de temps.
Nouveau besoin de compétences : savoir lire, expliquer, et exploiter des mesures.

Du capteur à l'action

Capter : température, pression, pH, débit, viscosité, signaux UV/IR.
Transmettre : communication capteurs -> réseau atelier -> serveur SI.
Structurer : données horodatées, nettoyage, harmonisation d'unités.
Intégrer : outils de production + ERP (qualité, maintenance, stocks, énergie).
Visualiser : tableaux de bord et indicateurs (KPI).
Agir : pilotage opérateur + règles machine + maintenance ciblée.

Schéma de la chaîne numérique d'un procédé — Chaîne du procédé : du capteur à l'action

Base commune (métier + pratique)

Capteur : instrument qui mesure une grandeur physique.
IoT : objets/capteurs connectés qui envoient des données en continu.
Donnée structurée : tableau avec colonnes définies (date, lot, pH, température...).
KPI : indicateur utile au pilotage (rendement, non-conformités, OEE, énergie).
ERP : système d'information qui connecte production, qualité, stocks et achats.
Mode opératoire (protocole expérimental) : procédure écrite et reproductible.
Cahier de journal : trace des actions, écarts, incidents, corrections.

Exemple 1 : bioproduction

Variables captées : pH, pression, température, agitation, débit gaz/liquide.
Objectif process : maintenir une température constante et un état stable du bioréacteur.
EBS / pilotage machine : régler automatiquement des consignes selon les mesures.
Data mining : détecter dérive lente, lot atypique, risque de non-conformité.
Résultat attendu : qualité plus stable + moins d'essais perdus.

Exemple 2 : polymères et séparation

Plastique : suivi de la viscosité avec données expertes (matière, vitesse, température).
Purification : suivi débit + température + analyses UV/IR en ligne.
Interprétation : relier les courbes process à la qualité finale.
Troubleshooting : identifier rapidement une cause probable d'écart machine.
Décision : ajuster les paramètres avant rejet de lot.

Quels besoins ? Quels services ?

Besoin 1 : centraliser la donnée atelier (capteurs, qualité, maintenance).
Besoin 2 : partager l'information entre production, laboratoire et direction.
Besoin 3 : relier l'atelier au SI (ERP, stock, commandes, achats).
Services utiles : historisation, alertes, tableaux de bord, rapports automatiques.
Approche pragmatique : commencer simple, puis étendre progressivement.

Méthode simple pour débuter

Vérifier la source : capteur, fréquence, unité, horodatage.
Vérifier la qualité : valeurs manquantes, incohérences, pics anormaux.
Comparer : lot actuel vs lots précédents, jour vs nuit, machine A vs B.
Relier au terrain : événement opérateur, changement matière, maintenance.
Conclure clairement : cause probable, action proposée, vérification.

Objectif : transformer des chiffres en décisions métier.

Indicateurs pour l'atelier

KPI production : débit, rendement, temps de cycle, taux de rebut.
KPI qualité : conformité lot, écart spécification, stabilité process.
KPI maintenance : pannes, MTBF, temps d'arrêt, alarmes récurrentes.
Troubleshooting machine : tableau de bord pour prioriser les causes probables.
Bonne pratique : peu d'indicateurs, mais actionnables et compris par tous.

Écologie industrielle: énergie et impact

Limiter la consommation d’énergie : détecter les dérives par machine, lot et créneau horaire.
Prévoir la consommation d’énergie : modèle simple selon charge, température extérieure, planning et type de produit.
Optimiser : déplacer certaines opérations énergivores vers des périodes plus favorables.
KPI clés : kWh/lot, kWh/unité produite, coût énergétique par lot, émissions associées.
Résultat attendu : baisse des coûts, réduction de l’empreinte carbone, meilleure robustesse opérationnelle.

Risques de fuite et protections minimales

Risque 1 : accès non autorisé aux historiques de production.
Risque 2 : fuite de recettes, paramètres critiques, résultats qualité.
Risque 3 : export externe non maîtrisé (fichier, email, clé USB, cloud).
Mesures minimales : droits par rôle, journal d’accès, chiffrement, sauvegardes testées.
Réaction : identifier rapidement la fuite potentielle, isoler, tracer, corriger.
Lien métier : sécurité des données = sécurité économique + conformité réglementaire.

Simulation, jumeaux numériques et RA/VR

Jumeau numérique : copie virtuelle d'un équipement ou d'une ligne.
Objectif : tester des réglages avant l'essai réel.
Calibration : aligner le modèle avec les données capteurs (température, pH, pression, débit).
Scenario planning : comparer plusieurs options de pilotage en quelques minutes.
RA/VR : former les opérateurs sur des procédures critiques sans exposition au risque.
Cas sensibles : nucléaire, chimie, bioréacteurs, zones ATEX.

Workflow jumeau numérique — Du capteur au scenario de décision

Data mining appliqué aux procédés

Données capteurs : température, pression, pH, débit, vibration, UV/IR.
Données SI/ERP : lots, ordres de fabrication, maintenance, consommation énergie.
Données laboratoire : mesures qualité, analyses, commentaires experts.
Données structurées : base solide pour analyses fiables et reproductibles.
Chimiométrie (Azuread / outils analytiques) : courbes, liens entre paramètres, plan d'expérience.
Internet + IA : nombreuses sources et outils, mais validation métier obligatoire.
Question future : l'IA peut-elle faire ces travaux seule ? Non, sans expertise terrain.
Machine Learning : gagner du temps et optimiser énergie + temps de production.

Schéma d'acquisition et de stockage des données — Acquisition et stockage des données industrielles

1.2.1. Formats les plus utilisés en atelier

CSV/TSV : export simple de machines et tableurs (format très courant en PME).
JSON : échange entre applications, API capteurs, plateformes IoT.
XML : échanges structurés entre outils industriels et logiciels historiques.
SQL/ERP : données structurées pour suivi lot, qualité, maintenance, énergie.
Médias (images/spectres) : vision, UV/IR, traces de contrôle qualité.

Exemple JSON (données IoT de procédé)

Format léger basé sur des paires clé-valeur, pratique pour capteurs connectés et supervision.

[
  {
    "timestamp": "2025-09-10T08:15:00",
    "reacteur": "BR-02",
    "ph": 6.8,
    "pression_bar": 1.2,
    "temperature_c": 37.0
  },
  {
    "timestamp": "2025-09-10T08:20:00",
    "reacteur": "BR-02",
    "ph": 6.7,
    "pression_bar": 1.3,
    "temperature_c": 37.1
  }
]

Exemple XML (ordre de fabrication)

Format hiérarchique utilisé dans plusieurs logiciels industriels et échanges inter-systèmes.

<ordreFabrication id="OF-2025-347">
  <lot>L-0925-A</lot>
  <produit>Solution Fermentee</produit>
  <consignes>
    <temperature_c>37</temperature_c>
    <ph_cible>6.8</ph_cible>
  </consignes>
  <mesures>
    <pression_bar>1.2</pression_bar>
    <debit_l_h>45</debit_l_h>
  </mesures>
</ordreFabrication>

Exemple CSV (suivi dans le temps)

Format simple pour commencer les analyses dans un tableur.

timestamp,machine,ph,pression_bar,temperature_c,debit_l_h,energie_kwh
2025-09-10T08:15:00,BR-02,6.8,1.2,37.0,45,12.4
2025-09-10T08:20:00,BR-02,6.7,1.3,37.1,44,12.8
2025-09-10T08:25:00,BR-02,6.6,1.4,37.3,43,13.5

Structurées, semi-structurées, non structurées

Structurées : tableaux SQL/ERP/LIMS (meilleures pour le pilotage régulier).
Semi-structurées : JSON/XML (intégration flexible entre outils).
Non structurées : images, commentaires opérateurs, rapports PDF.

Règle pratique : plus la donnée est structurée, plus l'analyse est rapide et fiable.

Architecture des types de données — Structurées, semi-structurées, non structurées

Protocoles, plan d'expérience et opérations

Mode opératoire bon/mauvais : comparer les résultats avec le même protocole.
Cahier de journal : noter conditions, incidents, corrections, observations terrain.
Plan d'expérience : relier paramètres et réponses (approche chimiométrique).
Lien métier-pratique-utilisation : la donnée doit aider à une action concrète.
Posture du cours : outils simples d'abord, sophistication ensuite.

1.2.3. Bases de données : choix pragmatique

SQL relationnel : idéal pour les données structurées de production.
NoSQL : utile pour des flux IoT volumineux et hétérogènes.
Règle simple : commencer par SQL + exports CSV si l'équipe débute.
Objectif : fiabilité, traçabilité, et partage inter-services.

1.2.3. CAP expliqué sans jargon

Cohérence : tout le monde voit la même valeur.
Disponibilité : le système répond rapidement.
Tolérance aux pannes réseau : le système continue malgré une coupure.
En pratique : en atelier, on cherche d'abord disponibilité + robustesse.

1.2.3. Compromis terrain

Mesure capteur : parfois reçue avec léger retard.
Besoin opérateur : voir une tendance en direct, même imparfaite.
Besoin qualité : valider ensuite une version consolidée.
Conclusion : deux vues possibles, temps réel et validation finale.

1.2.3. BASE en contexte industriel

Basically Available : l'atelier doit rester observable.
Soft State : certaines valeurs peuvent être temporaires.
Eventually Consistent : l'historique devient cohérent après synchronisation.
Usage : utile pour l'IoT distribué multi-lignes.

1.2.3. NoSQL : quand l'utiliser ?

Grand volume de mesures horodatées (seconde/minute).
Formats variables selon machines et capteurs.
Intégration rapide d'équipements nouveaux.
Conserver une couche SQL pour reporting métier.

1.2.3. NoSQL : limites à connaître

Requêtes métier parfois plus complexes.
Compétences spécifiques nécessaires.
Risque de perte de standardisation si mal gouverné.
Recommandation cours : comprendre les principes, rester pragmatique.

1.2.3. Types NoSQL (vue simple)

Clé-valeur : très rapide pour accès direct.
Document : flexible pour JSON capteurs.
Colonnes : adapté aux séries temporelles.
Graphe : utile pour les relations complexes d'équipements.

1.2.4. Base relationnelle en atelier

Table : une entité claire (lots, mesures, alarmes).
Ligne : un enregistrement horodaté.
Colonnes : variables normalisées (unité, capteur, valeur).
Clé primaire : identifie chaque enregistrement sans ambiguïté.

1.2.4. Exemple table: mesures de procédé

timestamp	machine	variable	valeur	unité
08:15	BR-02	pH	6.8	-
08:15	BR-02	Température	37.0	C
08:15	BR-02	Pression	1.2	bar

1.2.4. Qualité des schémas

Nommer les colonnes avec le vocabulaire métier.
Toujours stocker l'unité de mesure.
Distinguer valeur mesurée et valeur calculée.
Tracer source, capteur, version et lot.

1.2.5. Gouvernance des données

Qui crée ? capteur, opérateur, labo, ERP.
Qui valide ? qualité, responsable process.
Qui utilise ? production, maintenance, management.
Pourquoi ? décisions plus sûres et audits facilités.

1.2.5. Historisation utile

Conserver les tendances pour comparer les lots.
Analyser les causes de dérive sur plusieurs semaines.
Mesurer l'impact des réglages machine.
Documenter les retours d'expérience.

1.2.5. Données structurées vs notes libres

Structure: rapide à analyser.
Texte libre: riche, mais difficile à exploiter automatiquement.
Bonne pratique: combiner les deux.
Ajouter des champs codifiés pour incidents fréquents.

1.2.6. Sécurité des données process

Appliquer le principe du moindre privilège.
Journaliser accès et modifications.
Séparer réseau OT et IT quand nécessaire.
Sauvegardes testées régulièrement.

1.2.7. Résumé : stockage en DP

Structurer les données dès la capture.
Choisir un stockage simple et maintenable.
Sécuriser et tracer les accès.
Relier atelier, laboratoire et ERP.

1.3. Extraction : de la machine à l'analyse

Sources : PLC/SCADA, fichiers CSV, ERP, LIMS.
Formater des exports homogènes.
Synchroniser les horodatages.
Préparer une table de travail claire.

1.3. Intégration multi-sources

Relier mesures capteurs et numéros de lot.
Ajouter les événements opérateur et maintenance.
Intégrer les résultats labo (UV, IR, viscosité, pH).
Éviter les doublons et conflits de versions.

1.3. Identifiants clés

Un identifiant unique de lot.
Un identifiant machine/ligne.
Un horodatage fiable et fuseau défini.
Ces clés simplifient toutes les jointures.

Identifiants clés pour l'intégration des données — Clés de jointure entre les sources

1.3. Exemple d'intégration

Exporter les mesures minute par minute.
Importer les non-conformités ERP.
Joindre sur lot + machine + période.
Produire un tableau de bord par lot.

1.3. Pièges fréquents

Unités mélangées (bar/kPa, C/K).
Décalage d'horloge entre systèmes.
Valeurs nulles non distinguées des zéros.
Noms de variables non standardisés.

1.4. Pourquoi prétraiter ?

Des données brutes donnent des conclusions trompeuses.
Le prétraitement améliore qualité et confiance.
Il réduit le bruit des capteurs.
Il facilite l'interprétation métier.

1.4. Nettoyage

Retirer doublons exacts.
Corriger formats de date et séparateurs.
Gérer les valeurs manquantes explicitement.
Conserver un journal des corrections.

1.4. Valeurs aberrantes

Détecter les pics impossibles physiquement.
Comparer aux limites process connues.
Marquer au lieu de supprimer aveuglément.
Vérifier cause: capteur, saisie, incident réel.

Valeurs aberrantes et qualité des données — Détection des valeurs aberrantes

1.4. Données manquantes

Causes : panne capteur, réseau, arrêt ligne.
Choix: interpolation, suppression, ou maintien.
La méthode dépend du contexte procédé.
Toujours documenter la méthode retenue.

1.4. Mise à l'échelle

Comparer des variables de grandeurs différentes.
Normaliser avant certains modèles ML.
Conserver aussi les unités d'origine.
Expliquer ce choix aux opérateurs.

1.4. Lissage temporel

Réduire le bruit haute fréquence.
Conserver les événements critiques rapides.
Tester différentes fenêtres de lissage.
Valider avec un expert procédé.

1.4. Encodage des catégories

Machine, équipe, matière, recette.
Transformer en format exploitable par algorithme.
Éviter de perdre le sens métier.
Tenir un dictionnaire de données.

1.4. Prétraitement des spectres (UV/IR)

Correction de ligne de base.
Filtrage bruit et normalisation.
Extraction de zones pertinentes.
Préparer les données pour chimiométrie.

1.4. Contrôle qualité des datasets

Complétude, cohérence, exactitude, traçabilité.
Indicateurs qualité de données par lot.
Alertes si seuils non respectés.
Validation avant analyse finale.

1.4. Résumé prétraitement

Nettoyer.
Structurer.
Documenter.
Valider avec le métier.

1.5. Transformer pour décider

Créer des variables utiles : moyennes, dérivées, ratios.
Passer de données brutes à indicateurs actionnables.
Relier transformation à une question métier.
Exemple : kWh par lot, débit moyen, variabilité pH.

1.6. ETL en contexte procédés

Extract: capteurs, ERP, laboratoire.
Transform: nettoyage, harmonisation, enrichissement.
Load: base analytique ou entrepôt de données.
But: analyses fiables et répétables.

1.6. Étape Extract

Planifier des extractions automatiques.
Contrôler le volume et la fréquence.
Gérer les erreurs réseau et la reprise.
Horodater chaque extraction.

1.6. Étape Transform

Unifier unités et formats.
Fusionner sources autour du lot.
Créer des indicateurs de pilotage.
Ajouter règles de qualité de données.

Étape Transform de l'ETL — Transform : harmoniser et enrichir les données

1.6. Étape Load

Charger dans tables dédiées reporting.
Séparer brut et transformé.
Versionner les jeux de données.
Conserver historique des traitements.

1.6. ETL et dashboards

Alimenter KPIs en quasi temps réel.
Suivre rendement, qualité, énergie.
Afficher alertes et écarts.
Permettre drill-down par lot ou machine.

1.6. ETL et ERP

Relier ordres de fabrication aux mesures process.
Confronter objectif planifié vs réalisé.
Mieux estimer coûts et consommations.
Faciliter les revues de performance.

1.6. ETL pour l'énergie

Consolider les compteurs électriques et les données de production.
Calculer l'intensité énergétique par produit.
Identifier périodes de surconsommation.
Aider à la prévision énergétique.

Prévision de consommation d'énergie — Prévision de consommation énergie

1.6. ETL pour maintenance

Croiser alarmes, capteurs et historiques pannes.
Détecter les signaux faibles avant arrêt.
Prioriser interventions.
Réduire le temps d'indisponibilité.

1.6. ETL et sécurité des données

Minimisation : ne charger que les champs nécessaires à l’analyse.
Protection : masquer/anonymiser les champs sensibles quand possible.
Traçabilité : savoir qui a accédé à quoi, quand, et pour quel usage.
Prévention des fuites : contrôler les exports externes et les partages non validés.
Audit : conserver l’historique des traitements ETL pour enquête et conformité.

1.6. Orchestration simple

Exécuter le pipeline à heure fixe.
Alerter en cas d'échec.
Relancer automatiquement les étapes en erreur.
Produire un rapport quotidien.

1.6. Résumé ETL

Standardiser les flux.
Assurer qualité et traçabilité.
Servir dashboards, ERP et analyses.
Créer une base solide pour l'IA/ML.

1.7. Analyse descriptive pour opérateurs

Comparer lots conformes et non conformes.
Suivre tendances temporelles.
Identifier variables les plus influentes.
Produire des recommandations simples.

1.7. Vers le Machine Learning (sans complexité inutile)

Classification : lot conforme / à risque.
Régression : prévoir consommation énergie.
Détection d'anomalies : comportements machine atypiques.
Le modèle assiste la décision, il ne remplace pas l'expertise.

Classification conforme / a risque — Classification conforme / à risque

1.8. Visualiser pour agir

Une visualisation = une décision possible.
Limiter le nombre de graphiques par écran.
Utiliser les mêmes couleurs et unités partout.
Rendre la lecture immédiate pour l'atelier.

1.8. Graphiques utiles en procédés

Séries temporelles : suivi pH/pression/température.
Histogrammes: distribution des lots.
Boites à moustaches: variabilité par machine.
Nuages de points: relation entre paramètres.

1.8. Corrélations et causes possibles

La corrélation n'implique pas la causalité.
Croiser avec le contexte terrain et le journal opérateur.
Vérifier sur plusieurs lots.
Confirmer par essais contrôlés.

Corrélations et visualisation — Corrélations : interprétation avec prudence

1.8. Dashboard production

KPI clés : débit, taux de rebut, disponibilité.
Vue par ligne puis détail machine.
Alertes visuelles sur seuils critiques.
Historique des écarts sur 24h/7j.

Tableau de bord de production — Vue production : ligne et machine

1.8. Dashboard énergie

Consommation instantanée et cumulée.
kWh par lot / par unité produite.
Prévision journalière et écart à la cible.
Détection des périodes inefficaces.

Tableau de bord énergie et prévision — Suivi énergie et prévisions

1.8. Dashboard qualité

Conformité des lots en temps réel.
Suivi des variables critiques (CPP/CQA).
Tendance des non-conformités.
Lien direct vers causes probables.

1.8. Dashboard maintenance

Alarmes par criticité.
Machines les plus instables.
Temps moyen de réparation.
Actions préventives recommandées.

1.8. Cartes thermiques process

Comparer zones, machines ou périodes.
Identifier concentration d'alarmes.
Visualiser la dérive de performances.
Prioriser les actions de terrain.

1.8. Chimiométrie : courbes et plans d'expérience

Visualiser spectres UV/IR et composantes.
Relier paramètres procédé et qualité finale.
Aider au réglage expérimental.
Capitaliser la connaissance experte.

1.8. Jumeaux numériques et simulation

Créer un modèle virtuel basé sur les données historiques et temps réel.
Simuler des changements de consigne avant production.
Estimer l'impact sur la qualité, l'énergie, le débit et la stabilité.
Identifier les zones de risque (surchauffe, dérive pH, surpression).
Comparer plusieurs stratégies de pilotage machine.
Réduire les essais physiques coûteux.
Faciliter l'explication des décisions aux équipes terrain.

Jumeau numérique et simulation — Simulation guidée par les données process

1.8. RA/VR pour formation, sécurité et responsabilité

Construire des TP virtuels pour procédures critiques.
Former sans exposition directe au risque industriel.
Mesurer les performances : temps de réaction, erreurs, conformité.
Réduire incidents, arrêts non planifiés et consommation inutile.
Point éthique : la simulation assiste la décision, elle ne remplace pas l’expertise humaine.
Point gouvernance : tracer les scénarios et les décisions prises.

Formation VR en procédés — Former sans risque, évaluer objectivement

Excel / Power BI / Python (Pandas) / SQL : quand utiliser quoi ?

Outil	Quand l’utiliser	Limite principale
Excel	Exploration rapide, calculs simples, petits jeux de données.	Peu robuste pour gros volumes et automatisation.
Power BI	Dashboards, suivi KPI, partage avec production/management.	Préparation complexe si données non nettoyées.
Python + Pandas	Nettoyage, transformation, analyses reproductibles et scripts.	Nécessite un minimum de rigueur code/version.
SQL	Interroger des bases structurées, jointures, historisation.	Moins adapté aux analyses avancées sans outil complémentaire.

Conseil de cours : commencer simple (Excel/SQL), puis passer à Python/Pandas et BI selon le besoin métier.

Note : le travail pratique est traité dans une autre séance dédiée.

Carte des outils pour débutants — Choisir l'outil selon le besoin métier

Cas concrets où l’IA peut se tromper

Dérive capteur non détectée : le modèle apprend une fausse tendance.
Changement matière première : le comportement réel sort du domaine appris.
Peu de données d’incident : faux sentiment de sécurité sur les cas rares.
Défaut de causalité : corrélation forte mais mauvaise action terrain.
Biais opérationnel : une ligne de production domine les données d’apprentissage.
Boîte noire : décision difficile à expliquer lors d’un audit ou d’une non-conformité.

Règle : l’IA assiste la décision, mais la validation finale reste métier (opérateur + process + qualité).

Limites de l'IA en industrie de procédés — L'IA assiste, la validation métier reste indispensable

Traçabilité, auditabilité, rétention

Traçabilité : relier chaque mesure à un lot, une machine, un horodatage, une action.
Auditabilité : conserver qui a modifié quoi, quand, et pour quelle justification.
Rétention : définir des durées de conservation selon usage, risque et obligations.
Intégrité : empêcher les altérations non autorisées des données critiques.
Confidentialité : limiter l’accès aux recettes, paramètres sensibles et rapports qualité.
Preuve : pouvoir reconstruire l’historique d’un lot lors d’un incident.

Objectif : des données exploitables pour piloter, mais aussi défendables en contrôle ou audit.

Conformité et gouvernance des données — Traçabilité, auditabilité, rétention

Articles de recherche

[Abedjan 2016] Detecting Data Errors: Where Are We and What Needs to Be Done? VLDB Endowment.
[Dong 2013] Big Data Integration. IEEE ICDE 2013.
[Lenzerini 2002] Data Integration: A Theoretical Perspective. ACM PODS.
[Breiman 2001] Statistical Modeling: The Two Cultures.

Open Data, réglementation et pratiques

CNIL — protection des données et conformité.
data.gouv.fr — portail français open data.
EUR-Lex — textes réglementaires européens.
Jumeau numérique — notion et usages.
ISO — standards qualité, sécurité, management.

Ressources outils

Termes industriels (1/2)

Terme	Définition simple
ERP	Logiciel qui relie achats, stocks, production, qualité et finance.
SCADA	Supervision des équipements et visualisation en temps réel.
LIMS	Système de gestion des analyses et résultats laboratoire.
OEE / TRS	Indicateur global de performance d’une ligne de production.
MTBF	Temps moyen entre deux pannes d’un équipement.
MTTR	Temps moyen de réparation après panne.

Termes industriels (2/2)

Terme	Définition simple
ATEX	Zone à risque d’atmosphère explosive, avec exigences de sécurité.
ETL	Extract-Transform-Load: pipeline de données pour analyse.
KPI	Indicateur clé utilisé pour piloter la performance.
CAPEX	Dépenses d’investissement (machines, infrastructures).
OPEX	Dépenses opérationnelles (exploitation quotidienne).
Open Data	Données publiées et réutilisables sous conditions de licence.

Data Mining

Data Mining pour la Digitalisation des Procédés

Objectifs du cours (DP)

1.1. Pourquoi la donnée en Digitalisation des Procédés ?

Contexte métier

1.1. Chaîne numérique d'un procédé

Du capteur à l'action

1.1. Vocabulaire essentiel

Base commune (métier + pratique)

1.1. Cas procédé : fermentation et bioréacteurs

Exemple 1 : bioproduction

1.1. Cas procédé : plastique et purification

Exemple 2 : polymères et séparation

1.1. SI pour les PME industrielles

Quels besoins ? Quels services ?

1.1. Lire et interpréter des données

Méthode simple pour débuter

1.1. Pilotage par tableaux de bord

Indicateurs pour l'atelier

1.1. Énergie: mesurer, limiter, prévoir

Écologie industrielle: énergie et impact

1.1. Sécurité des données industrielles

Risques de fuite et protections minimales

1.1. Nouveaux procédés numériques

Simulation, jumeaux numériques et RA/VR

1.2. Acquisition et stockage des données

Data mining appliqué aux procédés

1.2. Formats de stockage des données (contexte procédé)

1.2.1. Formats les plus utilisés en atelier

1.2. Format JSON

Exemple JSON (données IoT de procédé)

1.2. Format XML

Exemple XML (ordre de fabrication)

1.2. Format CSV

Exemple CSV (suivi dans le temps)

1.2. Types de données en digitalisation

Structurées, semi-structurées, non structurées

1.2. De la donnée à la pratique métier

Protocoles, plan d'expérience et opérations

1.2. Acquisition et stockage des données

1.2.3. Bases de données : choix pragmatique

1.2. Acquisition et stockage des données

1.2.3. CAP expliqué sans jargon

1.2. Acquisition et stockage des données

1.2.3. Compromis terrain

1.2. Acquisition et stockage des données

1.2.3. BASE en contexte industriel

1.2. Acquisition et stockage des données

1.2.3. NoSQL : quand l'utiliser ?

1.2. Acquisition et stockage des données

1.2.3. NoSQL : limites à connaître

1.2. Acquisition et stockage des données

1.2.3. Types NoSQL (vue simple)

1.2. Acquisition et stockage des données

1.2.4. Base relationnelle en atelier

1.2. Acquisition et stockage des données

1.2.4. Exemple table: mesures de procédé

1.2. Acquisition et stockage des données

1.2.4. Qualité des schémas

1.2. Acquisition et stockage des données

1.2.5. Gouvernance des données

1.2. Acquisition et stockage des données

1.2.5. Historisation utile

1.2. Acquisition et stockage des données

1.2.5. Données structurées vs notes libres

1.2. Acquisition et stockage des données

1.2.6. Sécurité des données process

1.2. Acquisition et stockage des données

1.2.7. Résumé : stockage en DP

1.3. Extraction et intégration des données

1.3. Extraction : de la machine à l'analyse

1.3. Extraction et intégration des données

1.3. Intégration multi-sources

1.3. Extraction et intégration des données

1.3. Identifiants clés

1.3. Extraction et intégration des données

1.3. Exemple d'intégration

1.3. Extraction et intégration des données

1.3. Pièges fréquents

1.4. Prétraitement des données