Approfondissement Python : Traitement de données
PSM
John Samuel
CPE Lyon
Année: 2025-2026
Courriel: john.samuel@cpe.fr
Collecte initiale de données provenant de diverses sources.
Exploration approfondie des données pour identifier des tendances significatives et des insights pertinents.
Transformation des données en représentations graphiques claires et informatives. Par exemple, graphiques, tableaux de bord, cartes pour faciliter la compréhension visuelle.
Format léger et lisible par l'homme pour représenter et échanger des données et une structure basée sur des paires clé-valeur, adaptée pour les objets complexes et les listes.
[
{
"languageLabel": "ENIAC coding system",
"year": "1943"
},
{
"languageLabel": "ENIAC Short Code",
"year": "1946"
},
{
"languageLabel": "Von Neumann and Goldstine graphing system",
"year": "1946"
}
]
Langage de balisage polyvalent pour représenter et structurer des données de manière lisible par l'homme et la machine. XML supporte la représentation de données complexes avec des schémas définissables.
<?xml version="1.0" encoding="UTF-8"?>
<root>
<element>
<languageLabel>ENIAC coding system</languageLabel>
<year>1943</year>
</element>
<element>
<languageLabel>ENIAC Short Code</languageLabel>
<year>1946</year>
</element>
<element>
<languageLabel>Von Neumann and Goldstine graphing system</languageLabel>
<year>1946</year>
</element>
</root>
Format de fichier texte utilisé pour représenter des données tabulaires sous forme de valeurs séparées par des virgules.Il est idéal pour stocker des données tabulaires comme les feuilles de calcul.
languageLabel,year ENIAC coding system,1943 ENIAC Short Code,1946 Von Neumann and Goldstine graphing system,1946
Les crawlers, également appelés robots d'indexation, sont des programmes qui parcourent et analysent automatiquement les pages web pour collecter des informations. Les crawlers naviguent de page en page en suivant les liens, extrayant des données pertinentes telles que le contenu, les liens hypertextes, les balises méta, etc.
import requests
url = "https://api.github.com/users/johnsamuelwrites"
response = requests.get(url)
print(response.json())
Identifie et corrige les anomalies pour garantir la qualité des données
L'élimination des doublons implique la suppression d'enregistrements redondants en utilisant des contraintes d'intégrité, comme les dépendances fonctionnelles.
Exemple : Identifier les colonnes pertinentes qui définissent la duplication (par exemple, 'Colonne1', 'Colonne2'). Appliquer la suppression des doublons en conservant uniquement la première occurrence.
| num | languageLabel | year |
|---|---|---|
| 1 | ENIAC coding system | 1943 |
{num}→{languageLabel}
{languageLabel}→{year}
{num}→{year}
Déplacer efficacement les données des sources, telles que bases de données internes/externes et services web, vers les destinations, incluant entrepôts de données d'entreprise et entrepôts web, pour faciliter l'analyse.
Exploration des données selon plusieurs dimensions pour une compréhension approfondie.
Dimensions :Les aspects sous-jacents des données qui sont analysés.
Faits : Les mesures quantitatives associées aux dimensions, fournissant les données à analyser.
Le modèle de données en étoile est une architecture de base de données conçue spécifiquement pour faciliter l'analyse et le reporting dans les entrepôts de données.
Jacques Bertin identifie différentes variables visuelles cruciales pour la représentation graphique des données.