Approfondissement Python : Traitement de données

PSM

John Samuel
CPE Lyon

Année: 2025-2026
Courriel: john.samuel@cpe.fr

Objectifs

Cycle de vie des données : Phases de collecte à visualisation.
Acquisition, extraction, transformation de données : Étapes clés pour préparer l'analyse.
Stockage de données : Garantir disponibilité pour futures analyses.
ETL (Extract, Transform, Load) : Processus crucial pour préparation des données.
Analyses de données : Techniques variées pour insights.
Visualisation de données : Communication efficace des résultats.

Cycle de vie des données

Données : Collecte, stockage, et gestion initiale des données.
Connaissances : Extraction de signification à partir des données, identification de modèles et de tendances.
Perspectives : Interprétation des connaissances pour obtenir des insights exploitables.
Actions : Prise de décisions et mise en œuvre de stratégies basées sur les perspectives obtenues.

1.1. Des données à la connaissance

Acquisition de données
Extraction de données
Nettoyage de données
Transformation de données
Stockage de données
Modélisation de l'analyse des données
Analyses de données
Visualisation de données

1.1.1.1. Acquisition de données

Collecte initiale de données provenant de diverses sources.

1.1.1.2. ETL (Extraction Transformation, Loading)

ETL (Extraction, Transformation and Loading)

1.1.1.2. ETL (Extraction Transformation, Loading)

Extraction de données
Nettoyage de données
Transformation de données
Chargement des données dans les entrepôts de données

1.1.1.3. Analyses de données

Exploration approfondie des données pour identifier des tendances significatives et des insights pertinents.

Utilisation de tableurs tels que Microsoft Excel ou Google Sheets.
Fonctionnalités clés : tri, filtrage, formules, graphiques, facilitant l'analyse approfondie.

1.1.1.3. Analyses de données (Tableur)

Lignes (1, 2, 3, ...) : Représentent les enregistrements individuels ou observations dans le tableur.
Colonnes (A, B, C, ...) : Définissent les différentes variables ou attributs des données.
Cellule (A1, A2, B1, ...) : Intersection d'une ligne et d'une colonne, contenant une valeur spécifique.
Valeurs : Les données réelles stockées dans les cellules.
Cell Range (A1:A10) : Sélection de plusieurs cellules dans une colonne.
Feuille de calcul : Ensemble de données organisées sous forme de tableau dans le tableur.
Références (=A1, =A2, =Feuille1!A1, ...) : Liaison dynamique entre les cellules, permettant la mise à jour automatique des valeurs.
Formules (=expression) : Utilisation d'expressions mathématiques/logiques pour effectuer des calculs sur les données.

1.1.1.3. Analyses de données (Tableur: formules)

Valeurs : Les données réelles à traiter dans le tableur.
Références (A1, A1:A10, ...) : Liaisons aux cellules individuelles ou à des plages de cellules pour l'inclusion dans les calculs.
Opérateurs Arithmétiques (+, -, *) : Utilisés pour effectuer des opérations mathématiques sur les valeurs.
Opérateurs Relationnels (<, >) : Permettent de comparer les valeurs et d'évaluer des conditions.
Fonctions (SOMME, MOYENNE, MAX, ...) : Outils prédéfinis facilitant des calculs spécifiques sur les données.

1.1.1.4. Visualisation de données

Transformation des données en représentations graphiques claires et informatives. Par exemple, graphiques, tableaux de bord, cartes pour faciliter la compréhension visuelle.

1.1.1.4. Visualisation de données

L'acquisition de données [Lenzerini 2002][Dong 2013]

Questionnaires: questionnaires face à face, questionnaires en ligne
Capteurs¹
- Température, pression, humidité
- Acoustique, navigation
- Proximité, capteurs de présence
Réseau sociaux
Vidéo de surveillance
Web
Enregistrement

https://en.wikipedia.org/wiki/List_of_sensors

1.2.1. Formats de stockage de données

Fichiers Textuels et Binaires - Stockage de données sous forme de fichiers texte lisible ou binaire pour une variété d'applications.
CSV/TSV (Comma/Tab-Separated Values) - Formats de texte structuré, idéaux pour les données tabulaires, avec des valeurs séparées par des virgules (CSV) ou des tabulations (TSV).
XML (eXtensible Markup Language) - Format de données lisible par machine et par l'homme, utilisant des balises pour structurer l'information.
JSON (JavaScript Object Notation) - Format léger, largement utilisé pour le stockage et l'échange de données entre serveurs et applications.
Médias (Images/Audio/Vidéo) - Stockage de données multimédias dans des formats spécifiques tels que JPEG, MP3, MP4, etc.

1.2.1. Formats de stockage de données: JSON

Format léger et lisible par l'homme pour représenter et échanger des données et une structure basée sur des paires clé-valeur, adaptée pour les objets complexes et les listes.

[
  {
    "languageLabel": "ENIAC coding system",
    "year": "1943"
  },
  {
    "languageLabel": "ENIAC Short Code",
    "year": "1946"
  },
  {
    "languageLabel": "Von Neumann and Goldstine graphing system",
    "year": "1946"
  }
]

1.2.1. Formats de stockage de données: XML

Langage de balisage polyvalent pour représenter et structurer des données de manière lisible par l'homme et la machine. XML supporte la représentation de données complexes avec des schémas définissables.

<?xml version="1.0" encoding="UTF-8"?>
<root>
   <element>
      <languageLabel>ENIAC coding system</languageLabel>
      <year>1943</year>
   </element>
   <element>
      <languageLabel>ENIAC Short Code</languageLabel>
      <year>1946</year>
   </element>
   <element>
      <languageLabel>Von Neumann and Goldstine graphing system</languageLabel>
      <year>1946</year>
   </element>
</root>

1.2.1. Formats de stockage de données: CSV

Format de fichier texte utilisé pour représenter des données tabulaires sous forme de valeurs séparées par des virgules.Il est idéal pour stocker des données tabulaires comme les feuilles de calcul.

languageLabel,year
ENIAC coding system,1943
ENIAC Short Code,1946
Von Neumann and Goldstine graphing system,1946

1.2.2 Types de stockage des données

représentation de données — Unstructured vs. Structured vs. Semi-structured

1.2.2 Types de stockage des données

Bases de données structurées
- Bases de données relationnelles
- Bases de données orientées objet
Bases de données non-structurées
- Systèmes de fichiers
- Systèmes de gestion de contenu (CMS)
- Collections de documents
Bases de données semi-structurées
- Systèmes de fichiers
- Bases de données NoSQL

1.3.1. Techniques d'extraction des données

Vidage de données (data dumps)
- Téléchargement de données de vidange complètes
- Téléchargement de vidanges sélectives de données
Interrogation périodique des flux de données (par exemple, les blogs, les flux d'informations)
Flux de données
- Abonnement aux flux de données (notifications "push")

1.3.2. Interfaces d'interrogation

Points terminaux de requête supportant les langues déclaratives : Des points d'interrogation qui prennent en charge des langues déclaratives pour interroger la base de données. Utilisation de langues comme SQL (Structured Query Language) pour les bases de données relationnelles et SPARQL (SPARQL Protocol and RDF Query Language) pour les données RDF.
Options de recherche (et de filtrage) manuelle automatisée : Possibilité pour les utilisateurs d'effectuer des recherches manuelles et mise en place d'options automatisées pour filtrer les résultats. Exemple : Une interface offrant des filtres prédéfinis et une barre de recherche manuelle pour des requêtes plus spécifiques.

1.3.3. Crawlers pour les pages web

Les crawlers, également appelés robots d'indexation, sont des programmes qui parcourent et analysent automatiquement les pages web pour collecter des informations. Les crawlers naviguent de page en page en suivant les liens, extrayant des données pertinentes telles que le contenu, les liens hypertextes, les balises méta, etc.

1.3.4. Interface de programmation d'applications (API)

Opérations Web (CRUD) pour manipuler les ressources gérées en externe
- Create: créer
- Read: lire
- Update: mettre à jour
- Delete: supprimer
Requiert que les programmeurs développent des wrappers pour l'intégration des services web

1.3.4. Interface de programmation d'applications (API)

import requests
url = "https://api.github.com/users/johnsamuelwrites"

response = requests.get(url)
print(response.json())

1.4.1. Nettoyage de données

Identifie et corrige les anomalies pour garantir la qualité des données

Erreurs de Syntaxe - Correction des erreurs liées à la structure, format, ou type de données.
Erreurs Sémantiques - Rectification des incohérences de sens dans les données.
Erreurs de Couverture - Résolution des lacunes ou des données manquantes pour assurer une couverture complète.

1.4.1.1. Erreurs de syntaxe

Erreurs Lexicales - Ces erreurs impliquent une utilisation inappropriée des caractères ou des symboles, par exemple, si un utilisateur saisit une chaîne de caractères au lieu d'un chiffre dans une colonne numérique. Exemple : L'utilisateur entre "dix" au lieu de "10" dans une colonne de valeurs numériques.
Erreurs de Format des Données - Ces erreurs concernent la structure ou la présentation incorrecte des données, telles que des incohérences dans l'ordre du nom de famille et du prénom. Exemple : Les données sont enregistrées avec l'ordre "Nom, Prénom" au lieu de "Prénom Nom".
Erreurs de Données Irrégulières - Ces erreurs surviennent lorsque des données ne respectent pas les conventions ou les unités de mesure attendues, par exemple, l'utilisation de mesures différentes. Exemple : Dans une colonne de poids, certaines valeurs sont enregistrées en kilogrammes tandis que d'autres le sont en livres.

1.4.1.2. Erreurs sémantiques [Abedjan 2016]

Violation des Contraintes d'Intégrité - Il s'agit de situations où les données enfreignent les règles définies pour garantir la cohérence et la validité des informations. Exemple : Une règle stipulant qu'un étudiant ne peut être inscrit à plus d'un cours à la fois est violée.
Erreurs de Contradiction - Des incohérences entre les données qui devraient normalement être compatibles. Exemple : Un enregistrement indiquant qu'un produit est en stock tout en indiquant simultanément qu'il est en rupture de stock.
Erreurs de Duplication - Des enregistrements redondants ou répétitifs qui nuisent à l'efficacité de la base de données. Exemple : Deux entrées identiques pour le même client dans la base de données.
Erreurs de Donnée Invalide - L'enregistrement de données qui ne respectent pas les normes ou les formats attendus. Exemple : Enregistrer une date au format texte au lieu du format date prévu.

1.4.1.3. Erreurs de couverture

Valeur Manquante - La non-présence d'une valeur dans une colonne où une valeur est attendue. Exemple : L'absence de données dans la colonne "Prix" pour certains produits.
Donnée Manquante - L'absence complète d'une entrée ou d'un enregistrement dans la base de données. Exemple : L'absence totale des détails d'un client dans la base de clients.

1.4.2.1. Traitement des erreurs syntaxiques

Validation à l'Aide d'un Schéma - La validation à l'aide d'un schéma est un processus permettant de s'assurer que les données respectent une structure définie. Exemple : Utilisation de schémas tels que XSD (XML Schema Definition) ou JSONP pour valider la structure et le format des données.
Transformation de Données - La transformation de données implique la modification de la structure ou du format des données pour les rendre conformes aux exigences. Exemple : Utilisation d'outils de transformation comme XSLT (eXtensible Stylesheet Language Transformations) pour rectifier les erreurs syntaxiques et harmoniser le format des données.

1.4.2.2. Traitement des erreurs sémantiques

L'élimination des doublons implique la suppression d'enregistrements redondants en utilisant des contraintes d'intégrité, comme les dépendances fonctionnelles.

Exemple : Identifier les colonnes pertinentes qui définissent la duplication (par exemple, 'Colonne1', 'Colonne2'). Appliquer la suppression des doublons en conservant uniquement la première occurrence.

1.4.2.2. Traitement des erreurs sémantiques

num	languageLabel	year
1	ENIAC coding system	1943

{num}→{languageLabel}
{languageLabel}→{year}
{num}→{year}

1.4.2.3. Traitement des erreurs de couverture

Techniques d'Interpolation - L'interpolation consiste à estimer ou remplir les valeurs manquantes en se basant sur les données existantes. Exemple : Utilisation de méthodes d'interpolation, comme l'interpolation linéaire, pour estimer des valeurs manquantes dans une série chronologique.
Utilisation de Sources de Données Externes pour les Vérifications Croisées - La vérification croisée avec des sources externes implique l'utilisation de données provenant d'autres sources pour compléter ou valider les informations manquantes. Exemple : Intégrer des données provenant d'une source externe pour compléter les détails manquants dans une base de données client.

1.5.1. ETL (Extraction Transformation and Loading)

Extraction des Données : Récupération de données depuis différentes sources, qu'elles soient internes ou externes à l'organisation.
Nettoyage des Données : Identification et correction des erreurs, des incohérences et des duplications dans les données extraites.
Transformation des Données : Modification des données extraites pour les rendre conformes aux besoins et aux standards de l'entrepôt de données.
Chargement des Données dans les Entrepôts de Données : Intégration des données nettoyées et transformées dans l'entrepôt de données, prêtes pour l'analyse.

1.5.2. ETL: d'une base de données à l'autre

Déplacer efficacement les données des sources, telles que bases de données internes/externes et services web, vers les destinations, incluant entrepôts de données d'entreprise et entrepôts web, pour faciliter l'analyse.

De : Sources de données
- Bases de données internes ou externes, regroupant des données provenant de différentes sources.
- Services web fournissant des données via des API ou d'autres protocoles.
À : Entrepôts de données
- Entrepôts de données d'entreprise qui centralisent les informations pour l'analyse.
- Entrepôts Web spécialisés dans le stockage et l'analyse de données spécifiques à des applications en ligne.

1.5.2.1. Analyse des données multidimensionnelles

Exploration des données selon plusieurs dimensions pour une compréhension approfondie.

Dimensions :Les aspects sous-jacents des données qui sont analysés.

Attributes (Attributs): : Caractéristiques spécifiques d'une dimension.
Niveaux: : Les différentes valeurs possibles pour un attribut.
Hiérarchies: : Organisation des niveaux en structures arborescentes.

Faits : Les mesures quantitatives associées aux dimensions, fournissant les données à analyser.

1.5.2.1. Analyse des données multidimensionnelles

Dimensions

Dimensions : Spatio-temporelles Dimensions, Produits.
Attributes : Par exemple, nom, fabricant, etc.
Niveaux : Par exemple, jour, mois, trimestre, magasin, ville, pays, etc.
Hiérarchies : Par exemple, jour-mois-trimestre-année, magasin-ville-pays, etc.

Faits

Faits : Mesures telles que le nombre de produits vendus/non vendus.

1.5.2.2. Modèle de données en étoile

Le modèle de données en étoile est une architecture de base de données conçue spécifiquement pour faciliter l'analyse et le reporting dans les entrepôts de données.

Schéma en Étoile :
- Caractérisé par une table centrale de faits entourée de tables de dimensions.
- La table centrale de faits contient les mesures numériques que l'on souhaite analyser.
Table de Faits :
- Contient des mesures quantitatives telles que les ventes, les quantités, etc.
- Souvent liée à des clés étrangères provenant des tables de dimensions.

1.5.2.2. Modèle de données en étoile

Tables de Dimensions :
- Contiennent des informations détaillées sur les dimensions associées aux faits.
- Exemples de dimensions : temps (date, mois, année), produits, clients, emplacements géographiques.
Relations Simples :
- Chaque table de dimension est liée à la table centrale de faits par des clés étrangères.
- Facilite les requêtes multidimensionnelles en permettant des analyses détaillées.
Avantages :
- Favorise la simplicité et la performance pour les requêtes analytiques complexes.
- Idéal pour les environnements où l'analyse multidimensionnelle est fréquente.

1.5.2.2. Modèle de données en étoile

Activités d'analyse des données

Récupération des Valeurs : Extraire les données nécessaires à partir de sources diverses pour l'analyse.
Filtrer : Sélectionner des données spécifiques en fonction de critères prédéfinis pour réduire le volume de données.
Calculer les Valeurs Dérivées : Créer de nouvelles variables en effectuant des calculs basés sur les valeurs existantes.
Trouver l'Extremum : Identifier les valeurs maximales et minimales dans un ensemble de données.
Trier : Organiser les données dans un ordre spécifique, souvent croissant ou décroissant.
Déterminer la Limite : Établir des seuils ou des limites pour définir des critères spécifiques.

Activités d'analyse des données

Caractériser la Distribution : Analyser la répartition des valeurs dans un ensemble de données à l'aide de mesures statistiques.
Trouver des Anomalies : Identifier des valeurs aberrantes ou des schémas inhabituels dans les données.
Cluster : Regrouper les données similaires pour découvrir des structures ou des tendances.
Corréler : Examiner les relations entre différentes variables pour déterminer les liens.
Contextualisation : Comprendre les données dans leur contexte global pour une interprétation plus approfondie.

https://en.wikipedia.org/wiki/Data_analysis

1.7.1. Les variables visuelles [Jacques Bertin]

Jacques Bertin identifie différentes variables visuelles cruciales pour la représentation graphique des données.

Position : La position spatiale des éléments sur le graphique.
Taille : La taille relative des éléments pour représenter une mesure.
Forme : La forme distinctive des éléments pour catégoriser ou différencier.
Valeur : La valeur numérique des éléments, souvent représentée par la longueur d'une barre ou le placement le long d'un axe.
Couleur : L'utilisation de couleurs pour représenter des informations ou des catégories.
Orientation : L'angle ou l'inclinaison des éléments pour indiquer une direction ou une tendance.
Texture : La variation de surface ou de motif pour ajouter des informations tactiles à la visualisation.

1.7.2. Visualisation des données : Exemples

Séries Temporelles : Représentation graphique de données en fonction du temps pour analyser les tendances et les fluctuations.
Classement : Affichage ordonné des éléments en fonction d'une mesure spécifique pour identifier les leaders ou les suiveurs.
Partie à l'Ensemble : Illustration de la contribution relative des parties à un ensemble total.
Écart : Représentation graphique des différences entre des valeurs, souvent utilisée pour identifier des variations significatives.
Triage : Organisation des données pour révéler des modèles ou des structures spécifiques.
Distribution des Fréquences : Visualisation de la répartition des valeurs dans un ensemble de données, souvent à l'aide d'histogrammes.

1.7.2. Visualisation des données : Exemples

Corrélation : Analyse visuelle des relations entre deux variables pour identifier des tendances ou des dépendances.
Comparaison Nominale : Visualisation des différences entre catégories sans mesure quantitative.
Géographique ou Géospatial : Utilisation de cartes pour représenter des données en fonction de leur emplacement géographique.

Référence: https://en.wikipedia.org/wiki/Data_visualization

1.7.2. Visualisation des données: Exemples

Diagramme en Bâtons (Comparaison Nominale) : Utilisé pour comparer des catégories sans mesure quantitative, représentant des données discrètes.
Diagramme Circulaire (Partie à l'Ensemble) : Illustration de la contribution relative des parties à un ensemble total, utile pour représenter des pourcentages.
Histogramme (Distribution des Fréquences) : Visualisation graphique de la répartition des valeurs dans un ensemble de données, utilisé pour comprendre la distribution.
Nuage de Points (Corrélation) : Représentation de la corrélation entre deux variables, chaque point représentant une paire de valeurs.
Réseaux : Illustration des relations complexes entre entités interconnectées.

1.7.2. Visualisation des données: Exemples

Graphique Linéaire (Séries Temporelles) : Représentation des données en fonction du temps pour analyser les tendances et les variations.
Arborescence : Visualisation hiérarchique des relations entre différentes catégories ou niveaux.
Diagramme de Gantt : Utilisé pour planifier et suivre l'avancement des tâches sur une échelle de temps.
Carte Thermique/Heatmap : Utilisation de couleurs pour représenter des données sur une matrice, mettant en évidence les zones de concentration.

https://fr.wikipedia.org/wiki/Repr%C3%A9sentation_graphique_de_donn%C3%A9es

Diagramme circulaire

Diagramme à bulles

paradigmes des langues — Les paradigmes du langage de programmation (diagramme à bulles)

Frise chronologique

Visualisation des réseaux

requête Wikidata — Diagramme d'influence des langages de programmation

k couleurs prédominantes

Diagrammes de dispersion RGB (Comparaison)

Articles de recherche

[Abedjan 2016] Abedjan, Ziawasch, et al. Detecting Data Errors: Where Are We and What Needs to Be Done? VLDB Endowment, 1 Aug. 2016.
[Dong 2013] Dong, Xin Luna, and Divesh Srivastava. “Big Data Integration.” 2013 IEEE 29th International Conference on Data Engineering (ICDE), 2013, pp. 1245–48. IEEE Xplore
[Lenzerini 2002] Lenzerini, Maurizio. “Data Integration: A Theoretical Perspective.” Proceedings of the Twenty-First ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems, Association for Computing Machinery, 2002, pp. 233–246. ACM Digital Library

Approfondissement Python : Traitement de données

PSM

Approfondissement Python

Objectifs

1.1. Cycle de vie des données

Cycle de vie des données

1.1. Cycle de vie des données

1.1. Des données à la connaissance

1.1. Cycle de vie des données

1.1. Des données à la connaissance

1.1. Cycle de vie des données

1.1.1.1. Acquisition de données

1.1. Cycle de vie des données

1.1.1.2. ETL (Extraction Transformation, Loading)

1.1. Cycle de vie des données

1.1.1.2. ETL (Extraction Transformation, Loading)

1.1. Cycle de vie des données

1.1.1.3. Analyses de données

1.1. Cycle de vie des données

1.1.1.3. Analyses de données (Tableur)

1.1. Cycle de vie des données

1.1.1.3. Analyses de données (Tableur: formules)

1.1. Cycle de vie des données

1.1.1.4. Visualisation de données

1.1. Cycle de vie des données

1.1.1.4. Visualisation de données

1.2. Acquisition et stockage des données

L'acquisition de données [Lenzerini 2002][Dong 2013]

1.2. Acquisition et stockage des données

1.2.1. Formats de stockage de données

1.2. Acquisition et stockage des données

1.2.1. Formats de stockage de données: JSON

1.2. Acquisition et stockage des données

1.2.1. Formats de stockage de données: XML

1.2. Acquisition et stockage des données

1.2.1. Formats de stockage de données: CSV

1.2. Acquisition et stockage des données

1.2.2 Types de stockage des données

1.2. Acquisition et stockage des données

1.2.2 Types de stockage des données

1.3. Extraction et intégration des données

1.3.1. Techniques d'extraction des données

1.3. Extraction et intégration des données

1.3.2. Interfaces d'interrogation

1.3. Extraction et intégration des données

1.3.3. Crawlers pour les pages web

1.3. Extraction et intégration des données

1.3.4. Interface de programmation d'applications (API)

1.3. Extraction et intégration des données

1.3.4. Interface de programmation d'applications (API)

1.4. Prétraitement des données

1.4.1. Nettoyage de données

1.4. Prétraitement des données

1.4.1.1. Erreurs de syntaxe

1.4. Prétraitement des données

1.4.1.2. Erreurs sémantiques [Abedjan 2016]

1.4. Prétraitement des données

1.4.1.3. Erreurs de couverture

1.4. Prétraitement des données

1.4.2.1. Traitement des erreurs syntaxiques

1.4. Prétraitement des données

1.4.2.2. Traitement des erreurs sémantiques

1.4. Prétraitement des données

1.4.2.2. Traitement des erreurs sémantiques

1.4. Prétraitement des données

1.4.2.3. Traitement des erreurs de couverture

1.5. ETL

1.5.1. ETL (Extraction Transformation and Loading)

1.5. ETL

1.5.2. ETL: d'une base de données à l'autre

1.5. ETL

1.5.2.1. Analyse des données multidimensionnelles

1.5. ETL

1.5.2.1. Analyse des données multidimensionnelles

Dimensions

Faits

1.5. ETL

1.5.2.2. Modèle de données en étoile

1.5. ETL

1.5.2.2. Modèle de données en étoile