Approfondissement Python : Traitement de données

PSM

John Samuel
CPE Lyon

Année: 2025-2026
Courriel: john.samuel@cpe.fr

Creative Commons License

Approfondissement Python

Objectifs

1.1. Cycle de vie des données

Cycle de vie des données

  1. Données : Collecte, stockage, et gestion initiale des données.
  2. Connaissances : Extraction de signification à partir des données, identification de modèles et de tendances.
  3. Perspectives : Interprétation des connaissances pour obtenir des insights exploitables.
  4. Actions : Prise de décisions et mise en œuvre de stratégies basées sur les perspectives obtenues.
Cycle de vie des données
Cycle de vie des données

1.1. Cycle de vie des données

1.1. Des données à la connaissance

Des données à la connaissance
Des données à la connaissance

1.1. Cycle de vie des données

1.1. Des données à la connaissance

  1. Acquisition de données
  2. Extraction de données
  3. Nettoyage de données
  4. Transformation de données
  5. Stockage de données
  6. Modélisation de l'analyse des données
  7. Analyses de données
  8. Visualisation de données

1.1. Cycle de vie des données

1.1.1.1. Acquisition de données

Collecte initiale de données provenant de diverses sources.

Caisse vidéo de surveillance capteurs réseaux sociaux

1.1. Cycle de vie des données

1.1.1.2. ETL (Extraction Transformation, Loading)

ETL
ETL (Extraction, Transformation and Loading)

1.1. Cycle de vie des données

1.1.1.2. ETL (Extraction Transformation, Loading)

  1. Extraction de données
  2. Nettoyage de données
  3. Transformation de données
  4. Chargement des données dans les entrepôts de données

1.1. Cycle de vie des données

1.1.1.3. Analyses de données

Exploration approfondie des données pour identifier des tendances significatives et des insights pertinents.

OpenOffice
1.1.3. Analyses de données

1.1. Cycle de vie des données

1.1.1.3. Analyses de données (Tableur)

1.1. Cycle de vie des données

1.1.1.3. Analyses de données (Tableur: formules)

1.1. Cycle de vie des données

1.1.1.4. Visualisation de données

Transformation des données en représentations graphiques claires et informatives. Par exemple, graphiques, tableaux de bord, cartes pour faciliter la compréhension visuelle.

détection des objets Carte thermique

1.1. Cycle de vie des données

1.1.1.4. Visualisation de données

Températures mondiales Compteur thermique

1.2. Acquisition et stockage des données

L'acquisition de données [Lenzerini 2002][Dong 2013]

  1. Questionnaires: questionnaires face à face, questionnaires en ligne
  2. Capteurs1
    • Température, pression, humidité
    • Acoustique, navigation
    • Proximité, capteurs de présence
  3. Réseau sociaux
  4. Vidéo de surveillance
  5. Web
  6. Enregistrement
  1. https://en.wikipedia.org/wiki/List_of_sensors

1.2. Acquisition et stockage des données

1.2.1. Formats de stockage de données

1.2. Acquisition et stockage des données

1.2.1. Formats de stockage de données: JSON

Format léger et lisible par l'homme pour représenter et échanger des données et une structure basée sur des paires clé-valeur, adaptée pour les objets complexes et les listes.

[
  {
    "languageLabel": "ENIAC coding system",
    "year": "1943"
  },
  {
    "languageLabel": "ENIAC Short Code",
    "year": "1946"
  },
  {
    "languageLabel": "Von Neumann and Goldstine graphing system",
    "year": "1946"
  }
]			

1.2. Acquisition et stockage des données

1.2.1. Formats de stockage de données: XML

Langage de balisage polyvalent pour représenter et structurer des données de manière lisible par l'homme et la machine. XML supporte la représentation de données complexes avec des schémas définissables.

<?xml version="1.0" encoding="UTF-8"?>
<root>
   <element>
      <languageLabel>ENIAC coding system</languageLabel>
      <year>1943</year>
   </element>
   <element>
      <languageLabel>ENIAC Short Code</languageLabel>
      <year>1946</year>
   </element>
   <element>
      <languageLabel>Von Neumann and Goldstine graphing system</languageLabel>
      <year>1946</year>
   </element>
</root>
			

1.2. Acquisition et stockage des données

1.2.1. Formats de stockage de données: CSV

Format de fichier texte utilisé pour représenter des données tabulaires sous forme de valeurs séparées par des virgules.Il est idéal pour stocker des données tabulaires comme les feuilles de calcul.

languageLabel,year
ENIAC coding system,1943
ENIAC Short Code,1946
Von Neumann and Goldstine graphing system,1946
			

1.2. Acquisition et stockage des données

1.2.2 Types de stockage des données

représentation de données
Unstructured vs. Structured vs. Semi-structured

1.2. Acquisition et stockage des données

1.2.2 Types de stockage des données

  1. Bases de données structurées
    • Bases de données relationnelles
    • Bases de données orientées objet
  2. Bases de données non-structurées
    • Systèmes de fichiers
    • Systèmes de gestion de contenu (CMS)
    • Collections de documents
  3. Bases de données semi-structurées
    • Systèmes de fichiers
    • Bases de données NoSQL

1.3. Extraction et intégration des données

1.3.1. Techniques d'extraction des données

1.3. Extraction et intégration des données

1.3.2. Interfaces d'interrogation

1.3. Extraction et intégration des données

1.3.3. Crawlers pour les pages web

Les crawlers, également appelés robots d'indexation, sont des programmes qui parcourent et analysent automatiquement les pages web pour collecter des informations. Les crawlers naviguent de page en page en suivant les liens, extrayant des données pertinentes telles que le contenu, les liens hypertextes, les balises méta, etc.

Crawlers pour les pages web
Web crawlers : naviguer dans l'ensemble en utilisant des hyperliens

1.3. Extraction et intégration des données

1.3.4. Interface de programmation d'applications (API)

API
API (Interface de programmation)

1.3. Extraction et intégration des données

1.3.4. Interface de programmation d'applications (API)

import requests
url = "https://api.github.com/users/johnsamuelwrites"

response = requests.get(url)
print(response.json())

1.4. Prétraitement des données

1.4.1. Nettoyage de données

Identifie et corrige les anomalies pour garantir la qualité des données

1.4. Prétraitement des données

1.4.1.1. Erreurs de syntaxe

1.4. Prétraitement des données

1.4.1.2. Erreurs sémantiques [Abedjan 2016]

1.4. Prétraitement des données

1.4.1.3. Erreurs de couverture

pandas
Exemple: Pandas

1.4. Prétraitement des données

1.4.2.1. Traitement des erreurs syntaxiques

1.4. Prétraitement des données

1.4.2.2. Traitement des erreurs sémantiques

L'élimination des doublons implique la suppression d'enregistrements redondants en utilisant des contraintes d'intégrité, comme les dépendances fonctionnelles.

Exemple : Identifier les colonnes pertinentes qui définissent la duplication (par exemple, 'Colonne1', 'Colonne2'). Appliquer la suppression des doublons en conservant uniquement la première occurrence.

1.4. Prétraitement des données

1.4.2.2. Traitement des erreurs sémantiques

num languageLabel year
1 ENIAC coding system 1943
{num}→{languageLabel}
{languageLabel}→{year}
{num}→{year}
                

1.4. Prétraitement des données

1.4.2.3. Traitement des erreurs de couverture

1.5. ETL

1.5.1. ETL (Extraction Transformation and Loading)

  1. Extraction des Données : Récupération de données depuis différentes sources, qu'elles soient internes ou externes à l'organisation.
  2. Nettoyage des Données : Identification et correction des erreurs, des incohérences et des duplications dans les données extraites.
  3. Transformation des Données : Modification des données extraites pour les rendre conformes aux besoins et aux standards de l'entrepôt de données.
  4. Chargement des Données dans les Entrepôts de Données : Intégration des données nettoyées et transformées dans l'entrepôt de données, prêtes pour l'analyse.

1.5. ETL

1.5.2. ETL: d'une base de données à l'autre

Déplacer efficacement les données des sources, telles que bases de données internes/externes et services web, vers les destinations, incluant entrepôts de données d'entreprise et entrepôts web, pour faciliter l'analyse.

1.5. ETL

1.5.2.1. Analyse des données multidimensionnelles

Exploration des données selon plusieurs dimensions pour une compréhension approfondie.

Dimensions :Les aspects sous-jacents des données qui sont analysés.

Faits : Les mesures quantitatives associées aux dimensions, fournissant les données à analyser.

1.5. ETL

1.5.2.1. Analyse des données multidimensionnelles

Dimensions

Faits

1.5. ETL

1.5.2.2. Modèle de données en étoile

Le modèle de données en étoile est une architecture de base de données conçue spécifiquement pour faciliter l'analyse et le reporting dans les entrepôts de données.

1.5. ETL

1.5.2.2. Modèle de données en étoile

1.5. ETL

1.5.2.2. Modèle de données en étoile

Modèle de données en étoile
Modèle de données en étoile

1.6. Analyse des données

Activités d'analyse des données

  1. Récupération des Valeurs : Extraire les données nécessaires à partir de sources diverses pour l'analyse.
  2. Filtrer : Sélectionner des données spécifiques en fonction de critères prédéfinis pour réduire le volume de données.
  3. Calculer les Valeurs Dérivées : Créer de nouvelles variables en effectuant des calculs basés sur les valeurs existantes.
  4. Trouver l'Extremum : Identifier les valeurs maximales et minimales dans un ensemble de données.
  5. Trier : Organiser les données dans un ordre spécifique, souvent croissant ou décroissant.
  6. Déterminer la Limite : Établir des seuils ou des limites pour définir des critères spécifiques.

1.6. Analyse des données

Activités d'analyse des données

  1. Caractériser la Distribution : Analyser la répartition des valeurs dans un ensemble de données à l'aide de mesures statistiques.
  2. Trouver des Anomalies : Identifier des valeurs aberrantes ou des schémas inhabituels dans les données.
  3. Cluster : Regrouper les données similaires pour découvrir des structures ou des tendances.
  4. Corréler : Examiner les relations entre différentes variables pour déterminer les liens.
  5. Contextualisation : Comprendre les données dans leur contexte global pour une interprétation plus approfondie.
  1. https://en.wikipedia.org/wiki/Data_analysis

1.7. Visualisation des données

1.7.1. Les variables visuelles [Jacques Bertin]

Jacques Bertin identifie différentes variables visuelles cruciales pour la représentation graphique des données.

  1. Position : La position spatiale des éléments sur le graphique.
  2. Taille : La taille relative des éléments pour représenter une mesure.
  3. Forme : La forme distinctive des éléments pour catégoriser ou différencier.
  4. Valeur : La valeur numérique des éléments, souvent représentée par la longueur d'une barre ou le placement le long d'un axe.
  5. Couleur : L'utilisation de couleurs pour représenter des informations ou des catégories.
  6. Orientation : L'angle ou l'inclinaison des éléments pour indiquer une direction ou une tendance.
  7. Texture : La variation de surface ou de motif pour ajouter des informations tactiles à la visualisation.

1.7. Visualisation des données

1.7.2. Visualisation des données : Exemples

  1. Séries Temporelles : Représentation graphique de données en fonction du temps pour analyser les tendances et les fluctuations.
  2. Classement : Affichage ordonné des éléments en fonction d'une mesure spécifique pour identifier les leaders ou les suiveurs.
  3. Partie à l'Ensemble : Illustration de la contribution relative des parties à un ensemble total.
  4. Écart : Représentation graphique des différences entre des valeurs, souvent utilisée pour identifier des variations significatives.
  5. Triage : Organisation des données pour révéler des modèles ou des structures spécifiques.
  6. Distribution des Fréquences : Visualisation de la répartition des valeurs dans un ensemble de données, souvent à l'aide d'histogrammes.

1.7. Visualisation des données

1.7.2. Visualisation des données : Exemples

  1. Corrélation : Analyse visuelle des relations entre deux variables pour identifier des tendances ou des dépendances.
  2. Comparaison Nominale : Visualisation des différences entre catégories sans mesure quantitative.
  3. Géographique ou Géospatial : Utilisation de cartes pour représenter des données en fonction de leur emplacement géographique.

Référence: https://en.wikipedia.org/wiki/Data_visualization

1.7. Visualisation des données

1.7.2. Visualisation des données: Exemples

  1. Diagramme en Bâtons (Comparaison Nominale) : Utilisé pour comparer des catégories sans mesure quantitative, représentant des données discrètes.
  2. Diagramme Circulaire (Partie à l'Ensemble) : Illustration de la contribution relative des parties à un ensemble total, utile pour représenter des pourcentages.
  3. Histogramme (Distribution des Fréquences) : Visualisation graphique de la répartition des valeurs dans un ensemble de données, utilisé pour comprendre la distribution.
  4. Nuage de Points (Corrélation) : Représentation de la corrélation entre deux variables, chaque point représentant une paire de valeurs.
  5. Réseaux : Illustration des relations complexes entre entités interconnectées.

1.7. Visualisation des données

1.7.2. Visualisation des données: Exemples

  1. Graphique Linéaire (Séries Temporelles) : Représentation des données en fonction du temps pour analyser les tendances et les variations.
  2. Arborescence : Visualisation hiérarchique des relations entre différentes catégories ou niveaux.
  3. Diagramme de Gantt : Utilisé pour planifier et suivre l'avancement des tâches sur une échelle de temps.
  4. Carte Thermique/Heatmap : Utilisation de couleurs pour représenter des données sur une matrice, mettant en évidence les zones de concentration.
  1. https://fr.wikipedia.org/wiki/Repr%C3%A9sentation_graphique_de_donn%C3%A9es

1.7. Visualisation des données

Diagramme circulaire

Diagramme circulaire fleur

1.7. Visualisation des données

Diagramme à bulles

paradigmes des langues
Les paradigmes du langage de programmation (diagramme à bulles)

1.7. Visualisation des données

Frise chronologique

Frise chronologique - Histropedia
Historique des langages de programmation (Histropedia)

1.7. Visualisation des données

Visualisation des réseaux

requête Wikidata
Diagramme d'influence des langages de programmation

1.7. Visualisation des données

k couleurs prédominantes

KMeans fleur

1.7. Visualisation des données

Diagrammes de dispersion RGB (Comparaison)

KMeans et MiniBatchKMeans fleur

Références

Articles de recherche

Références

Wikipedia

Références

Couleurs

Images