Traitement de données massives

John Samuel
CPE Lyon

Année: 2025-2026
Courriel: john.samuel@cpe.fr

Objectifs

Cycle de vie des données : Phases de collecte à visualisation.
Acquisition, extraction, transformation de données : Étapes clés pour préparer l'analyse.
Stockage de données : Garantir disponibilité pour futures analyses.
ETL (Extract, Transform, Load) : Processus crucial pour préparation des données.
Analyses de données : Techniques variées pour insights.
Visualisation de données : Communication efficace des résultats.

Cycle de vie des données

Données : Collecte, stockage, et gestion initiale des données.
Connaissances : Extraction de signification à partir des données, identification de modèles et de tendances.
Perspectives : Interprétation des connaissances pour obtenir des insights exploitables.
Actions : Prise de décisions et mise en œuvre de stratégies basées sur les perspectives obtenues.

Data lifecycle diagram — Cycle de vie des données

1.1. Des données à la connaissance

Ce processus formalise la transformation des données en informations, puis en connaissances mobilisables pour la décision.

Data analysis steps — Des données à la connaissance

1.1. Des données à la connaissance

Acquisition de données
Extraction de données
Nettoyage de données
Transformation de données
Stockage de données
Modélisation de l'analyse des données
Analyses de données
Visualisation de données

1.1.1.1. Acquisition de données

Collecte initiale de données provenant de diverses sources.

La méthode 5W1H (Qui, Quoi, Où, Quand, Pourquoi, Comment) est essentielle pour structurer cette étape : elle permet de définir précisément la source, la nature, le lieu, le moment, la raison et la méthode de collecte des données.

1.1.1.2. ETL (Extraction Transformation, Loading)

Processus structuré d’intégration qui extrait, transforme et charge les données pour assurer leur qualité, cohérence et disponibilité analytique.

ETL - Extract Transform Load — ETL (Extraction, Transformation and Loading)

1.1.1.2. ETL (Extraction Transformation, Loading)

Extraction de données
Nettoyage de données
Transformation de données
Chargement des données dans les entrepôts de données

1.1.1.3. Analyses de données

Exploration approfondie des données pour identifier des tendances significatives et des insights pertinents.

Utilisation de tableurs tels que Microsoft Excel ou Google Sheets.
Fonctionnalités clés : tri, filtrage, formules, graphiques, facilitant l'analyse approfondie.

OpenOffice Calc spreadsheet — 1.1.3. Analyses de données

1.1.1.3. Analyses de données (Tableur)

Lignes (1, 2, 3, ...) : Représentent les enregistrements individuels ou observations dans le tableur.
Colonnes (A, B, C, ...) : Définissent les différentes variables ou attributs des données.
Cellule (A1, A2, B1, ...) : Intersection d'une ligne et d'une colonne, contenant une valeur spécifique.
Valeurs : Les données réelles stockées dans les cellules.
Cell Range (A1:A10) : Sélection de plusieurs cellules dans une colonne.
Feuille de calcul : Ensemble de données organisées sous forme de tableau dans le tableur.
Références (=A1, =A2, =Feuille1!A1, ...) : Liaison dynamique entre les cellules, permettant la mise à jour automatique des valeurs.
Formules (=expression) : Utilisation d'expressions mathématiques/logiques pour effectuer des calculs sur les données.

1.1.1.3. Analyses de données (Tableur: formules)

Valeurs : Les données réelles à traiter dans le tableur.
Références (A1, A1:A10, ...) : Liaisons aux cellules individuelles ou à des plages de cellules pour l'inclusion dans les calculs.
Opérateurs Arithmétiques (+, -, *) : Utilisés pour effectuer des opérations mathématiques sur les valeurs.
Opérateurs Relationnels (<, >) : Permettent de comparer les valeurs et d'évaluer des conditions.
Fonctions (SOMME, MOYENNE, MAX, ...) : Outils prédéfinis facilitant des calculs spécifiques sur les données.

1.1.1.4. Visualisation de données

Transformation des données en représentations graphiques claires et informatives. Par exemple, graphiques, tableaux de bord, cartes pour faciliter la compréhension visuelle.

1.1.1.4. Visualisation de données

World temperatures comparison 1880s and 1980s

L'acquisition de données [Lenzerini 2002][Dong 2013]

Questionnaires: questionnaires face à face, questionnaires en ligne
Capteurs¹

Température, pression, humidité
Acoustique, navigation
Proximité, capteurs de présence

Réseau sociaux
Vidéo de surveillance
Web
Enregistrement

https://en.wikipedia.org/wiki/List_of_sensors

1.2.1. Formats de stockage de données

Fichiers Textuels et Binaires - Stockage de données sous forme de fichiers texte lisible ou binaire pour une variété d'applications.
CSV/TSV (Comma/Tab-Separated Values) - Formats de texte structuré, idéaux pour les données tabulaires, avec des valeurs séparées par des virgules (CSV) ou des tabulations (TSV).
XML (eXtensible Markup Language) - Format de données lisible par machine et par l'homme, utilisant des balises pour structurer l'information.
JSON (JavaScript Object Notation) - Format léger, largement utilisé pour le stockage et l'échange de données entre serveurs et applications.
Médias (Images/Audio/Vidéo) - Stockage de données multimédias dans des formats spécifiques tels que JPEG, MP3, MP4, etc.

1.2.1. Formats de stockage de données: JSON

Format léger et lisible par l'homme pour représenter et échanger des données et une structure basée sur des paires clé-valeur, adaptée pour les objets complexes et les listes.

[
  {
    "languageLabel": "ENIAC coding system",
    "year": "1943"
  },
  {
    "languageLabel": "ENIAC Short Code",
    "year": "1946"
  },
  {
    "languageLabel": "Von Neumann and Goldstine graphing system",
    "year": "1946"
  }
]

1.2.1. Formats de stockage de données: XML

Langage de balisage polyvalent pour représenter et structurer des données de manière lisible par l'homme et la machine. XML supporte la représentation de données complexes avec des schémas définissables.

<?xml version="1.0" encoding="UTF-8"?>
<root>
   <element>
      <languageLabel>ENIAC coding system</languageLabel>
      <year>1943</year>
   </element>
   <element>
      <languageLabel>ENIAC Short Code</languageLabel>
      <year>1946</year>
   </element>
   <element>
      <languageLabel>Von Neumann and Goldstine graphing system</languageLabel>
      <year>1946</year>
   </element>
</root>

1.2.1. Formats de stockage de données: CSV

Format texte pour données tabulaires (lignes/colonnes).
Valeurs séparées par des virgules (ou un autre séparateur).
Simple, portable et compatible avec les tableurs.

languageLabel,year
ENIAC coding system,1943
ENIAC Short Code,1946
Von Neumann and Goldstine graphing system,1946

1.2.2 Types de stockage des données

On distingue des données structurées, semi-structurées et non structurées, un cadre qui guide l’organisation, l’accès et les choix de traitement.

Structurées : schéma fixe, tables relationnelles, faciles à requêter.
Semi-structurées : schéma souple avec balises/champs (JSON, XML).
Non structurées : texte, images, audio/vidéo sans schéma explicite.

Data representation - Unstructured vs Structured vs Semi-structured — Non structuré vs. Structuré vs. Semi-structuré

1.2.2 Types de stockage des données

Trois familles selon le degré de structuration :

Structurées : bases de données relationnelles, bases de données orientées objet (ex. MariaDB, PostgreSQL).
Non structurées : systèmes de fichiers, collections de documents, CMS.
Semi-structurées : JSON/XML, bases NoSQL (ex. MongoDB, CouchDB).

1.2.3.1. Propriétés ACID¹

Cadre garantissant la fiabilité des transactions.

Atomicité : tout ou rien, pas d’état partiel.
Cohérence : passage d’un état valide à un autre.
Isolation : transactions concurrentes sans interférences.
Durabilité : données persistantes après validation.

https://fr.wikipedia.org/wiki/Propri%C3%A9t%C3%A9s_ACID

1.2.3.1. Propriétés ACID

Ces propriétés garantissent la fiabilité et la cohérence des transactions dans les bases de données.

Atomicité : un virement est tout‑ou‑rien (débit + crédit).
Cohérence : soldes et règles restent valides après chaque opération.
Isolation : transactions concurrentes n’altèrent pas les soldes.
Durabilité : une opération validée n’est pas perdue en cas de panne.

1.2.3.2 Types de bases de données

Bases de Données Relationnelles : Utilisent le modèle relationnel pour organiser les données en tables, liées par des clés. SQL est le langage de requête standard pour les bases de données relationnelles.
Base de Données Orientée Objet : Modélise les données sous forme d'objets, intégrant des concepts de l'orientation objet tels que l'héritage et l'encapsulation. Elle est utilisée pour représenter des structures de données complexes.
NoSQL (Not Only SQL) : Englobe une variété de modèles de données non relationnels tels que les bases de données clé-valeur, documentaires, graphes, et de colonnes. Adapté aux données non structurées ou semi-structurées.
NewSQL : Approche moderne qui vise à combiner les avantages des bases de données relationnelles avec des améliorations de performance adaptées aux architectures distribuées.

1.2.3.3. NoSQL

Théorème CAP¹

Dans un système distribué, on ne peut pas garantir simultanément ces trois propriétés.

Cohérence : tous les nœuds voient la même donnée au même instant.
Disponibilité : chaque requête reçoit une réponse, même si elle n'est pas la plus récente.
Tolérance au partitionnement : le système continue malgré des coupures ou retards réseau.

Exemple : lors d'une coupure réseau, un service peut choisir de rester disponible mais retourner une donnée légèrement décalée.

1.2.3.3. NoSQL

Compromis sur la cohérence

Cohérence parfois relâchée pour d’autres priorités.
Souvent contre disponibilité et latence plus faibles.

Priorité à la disponibilité et à la rapidité

Disponibilité et rapidité privilégiées.
Scalabilité horizontale et performances élevées.

1.2.3.3. NoSQL : BASE

Le modèle BASE privilégie la disponibilité et la réactivité, au prix d’une cohérence immédiate.

Basically Available (BA) — Disponibilité fondamentale : lectures/écritures restent disponibles, même en cas de panne.
Soft-state (S) — État temporaire : l’état peut être temporairement incohérent.
Eventually Consistent (E) — Cohérence éventuelle : cohérence atteinte après propagation des mises à jour.

Exemple : un “j’aime” sur un réseau social apparaît d’abord localement, puis se propage aux autres serveurs.

1.2.3.3. Types de bases de données NoSQL

Colonnes : optimisées pour lectures analytiques.
Clé‑valeur : accès direct par clé.

Column data store — Stockage en colonnes

1.2.3.3. Types de bases de données NoSQL

Documents : données semi‑structurées (XML/JSON).
Graphe : relations complexes entre entités.

BaseX XML database GUI — Documents (XML)

Graph database property graph — Graphe (property graph)

1.2.3.3. Types de bases de données NoSQL

Colonnes : stocke par familles de colonnes, efficace pour l’analytique.
Documents : JSON/XML flexibles, schéma souple.
Clé‑valeur : accès direct par clé, très rapide.
Graphe : relations complexes, parcours de liens.

Base de données relationnelles

Un tableau organise les données en lignes et colonnes.
Les colonnes (attributs) décrivent les types d’informations, avec un nom et un type.
Les lignes (tuples) représentent des enregistrements individuels conformes aux colonnes.
La clé primaire identifie de façon unique chaque ligne (colonne ou combinaison).

Exemple: un tableau dans une base de données relationnelles

num	languageLabel	year
1	ENIAC coding system	1943
2	ENIAC Short Code	1946
3	Von Neumann and Goldstine graphing system	1946

NoSQL: base de données orientée colonnes

Stockage efficace en colonnes plutôt qu’en lignes.
Organisation en familles de colonnes liées à un identifiant unique.
Adaptée aux accès fréquents à un sous-ensemble de données.
Performante pour les agrégations et l’analytique.

Exemple : une base orientée colonnes (p. ex. Cassandra, HBase) pour des mesures de capteurs horodatées, où l’on interroge souvent un intervalle de temps sur quelques colonnes.

Exemple: base de données orientée colonnes

ENIAC coding system:1; ENIAC Short Code:2 Von Neumann and Goldstine graphing system:3

1943:1; 1946:2; 1946:3

Familles de colonnes : « langages » et « années », reliées par l’identifiant 1–3.
Requête typique : lire uniquement la famille « années » (1943, 1946) sans charger les noms.
Avantage : moins d’entrées/sorties (I/O) et de lecture inutile → accès plus rapide et meilleure scalabilité.

NoSQL : base de données orientée documents

Stockage par documents (JSON/BSON) regroupant des données liées, avec schéma flexible.

Avantage : adaptation rapide aux données semi-structurées ou évolutives.

  {
    "languageLabel": "ENIAC coding system",
    "year": "1943"
  }

Exemples : MongoDB, CouchDB sont des exemples de bases de données NoSQL orientées documents.

Exemple: base de données orientée clé-valeur

Une base clé-valeur stocke des paires clé-valeur avec des clés uniques (simples ou complexes). Très flexible, elle excelle en lecture/écriture simples et en accès rapide par clé, idéale pour des données simples et non structurées.

identifiant	languageLabel,year
p1	ENIAC coding system,1943
p2	ENIAC Short Code,1946

Exemples : Redis, Amazon DynamoDB sont des exemples de bases de données NoSQL orientées clé-valeur.

NoSQL: base de données orientée graphe

Données modélisées en nœuds (entités), arêtes (relations) et propriétés.
Avantages : relations complexes, exploration de motifs, connectivité rapide.
Usages : réseaux sociaux, recommandations, fraude, gestion de connaissances.
Requêtes : parcours de graphe (chemins, voisins, communautés).
Solutions : Neo4j, GraphDB, Amazon Neptune.

Exemple: base de données orientée graphe

Deux types de nœuds : langage de programmation et année. L’arête year relie un langage à l’année de sa première version.

Graph NoSQL database — base de données orientée graphe

1.3.1. Techniques d'extraction des données

Vidage de données (data dumps)
- Téléchargement de données de vidange complètes
- Téléchargement de vidanges sélectives de données
Interrogation périodique des flux de données (par exemple, les blogs, les flux d'informations)
Flux de données
- Abonnement aux flux de données (notifications "push")

1.3.2. Interfaces d'interrogation

Points terminaux de requête supportant les langues déclaratives : Des points d'interrogation qui prennent en charge des langues déclaratives pour interroger la base de données. Utilisation de langues comme SQL (Structured Query Language) pour les bases de données relationnelles et SPARQL (SPARQL Protocol and RDF Query Language) pour les données RDF.
Options de recherche (et de filtrage) manuelle automatisée : Possibilité pour les utilisateurs d'effectuer des recherches manuelles et mise en place d'options automatisées pour filtrer les résultats. Exemple : Une interface offrant des filtres prédéfinis et une barre de recherche manuelle pour des requêtes plus spécifiques.

1.3.3. Crawlers pour les pages web

Les crawlers, également appelés robots d'indexation, sont des programmes qui parcourent et analysent automatiquement les pages web pour collecter des informations. Les crawlers naviguent de page en page en suivant les liens, extrayant des données pertinentes telles que le contenu, les liens hypertextes, les balises méta, etc.

Web crawler architecture — Web crawlers : naviguer dans l'ensemble en utilisant des hyperliens

1.3.4. Interface de programmation d'applications (API)

Opérations Web (CRUD) pour manipuler les ressources gérées en externe
- Create: créer
- Read: lire
- Update: mettre à jour
- Delete: supprimer
Requiert que les programmeurs développent des wrappers pour l'intégration des services web

API programming interface — API (Interface de programmation)

1.3.4. Interface de programmation d'applications (API)

import requests
url = "https://api.github.com/users/johnsamuelwrites"

response = requests.get(url)
print(response.json())

1.4.1. Nettoyage de données

Identifie et corrige les anomalies pour garantir la qualité des données

Erreurs de Syntaxe - Correction des erreurs liées à la structure, format, ou type de données.
Erreurs Sémantiques - Rectification des incohérences de sens dans les données.
Erreurs de Couverture - Résolution des lacunes ou des données manquantes pour assurer une couverture complète.

1.4.1.1. Erreurs de syntaxe

Erreurs Lexicales - Ces erreurs impliquent une utilisation inappropriée des caractères ou des symboles, par exemple, si un utilisateur saisit une chaîne de caractères au lieu d'un chiffre dans une colonne numérique. Exemple : L'utilisateur entre "dix" au lieu de "10" dans une colonne de valeurs numériques.
Erreurs de Format des Données - Ces erreurs concernent la structure ou la présentation incorrecte des données, telles que des incohérences dans l'ordre du nom de famille et du prénom. Exemple : Les données sont enregistrées avec l'ordre "Nom, Prénom" au lieu de "Prénom Nom".
Erreurs de Données Irrégulières - Ces erreurs surviennent lorsque des données ne respectent pas les conventions ou les unités de mesure attendues, par exemple, l'utilisation de mesures différentes. Exemple : Dans une colonne de poids, certaines valeurs sont enregistrées en kilogrammes tandis que d'autres le sont en livres.

1.4.1.2. Erreurs sémantiques [Abedjan 2016]

Violation des Contraintes d'Intégrité - Il s'agit de situations où les données enfreignent les règles définies pour garantir la cohérence et la validité des informations. Exemple : Une règle stipulant qu'un étudiant ne peut être inscrit à plus d'un cours à la fois est violée.
Erreurs de Contradiction - Des incohérences entre les données qui devraient normalement être compatibles. Exemple : Un enregistrement indiquant qu'un produit est en stock tout en indiquant simultanément qu'il est en rupture de stock.
Erreurs de Duplication - Des enregistrements redondants ou répétitifs qui nuisent à l'efficacité de la base de données. Exemple : Deux entrées identiques pour le même client dans la base de données.
Erreurs de Donnée Invalide - L'enregistrement de données qui ne respectent pas les normes ou les formats attendus. Exemple : Enregistrer une date au format texte au lieu du format date prévu.

1.4.1.3. Erreurs de couverture

Valeur Manquante - La non-présence d'une valeur dans une colonne où une valeur est attendue. Exemple : L'absence de données dans la colonne "Prix" pour certains produits.
Donnée Manquante - L'absence complète d'une entrée ou d'un enregistrement dans la base de données. Exemple : L'absence totale des détails d'un client dans la base de clients.

Pandas DataFrame dropna documentation — Exemple: Pandas

1.4.2.1. Traitement des erreurs syntaxiques

Validation à l'Aide d'un Schéma - La validation à l'aide d'un schéma est un processus permettant de s'assurer que les données respectent une structure définie. Exemple : Utilisation de schémas tels que XSD (XML Schema Definition) ou JSONP pour valider la structure et le format des données.
Transformation de Données - La transformation de données implique la modification de la structure ou du format des données pour les rendre conformes aux exigences. Exemple : Utilisation d'outils de transformation comme XSLT (eXtensible Stylesheet Language Transformations) pour rectifier les erreurs syntaxiques et harmoniser le format des données.

1.4.2.1. Traitement des erreurs syntaxiques: XSD

<xs:schema attributeFormDefault="unqualified"
      elementFormDefault="qualified" xmlns:xs="http://www.w3.org/2001/XMLSchema">
  <xs:element name="root" type="rootType"/>
  <xs:complexType name="elementType">
    <xs:sequence>
      <xs:element type="xs:string" name="languageLabel"/>
      <xs:element type="xs:short" name="year"/>
    </xs:sequence>
  </xs:complexType>
  <xs:complexType name="rootType">
    <xs:sequence>
      <xs:element type="elementType" name="element" maxOccurs="unbounded" minOccurs="0"/>
    </xs:sequence>
  </xs:complexType>
</xs:schema>

1.4.2.2. Traitement des erreurs sémantiques

L'élimination des doublons implique la suppression d'enregistrements redondants en utilisant des contraintes d'intégrité, comme les dépendances fonctionnelles.

Exemple : Identifier les colonnes pertinentes qui définissent la duplication (par exemple, 'Colonne1', 'Colonne2'). Appliquer la suppression des doublons en conservant uniquement la première occurrence.

1.4.2.2. Traitement des erreurs sémantiques

num	languageLabel	year
1	ENIAC coding system	1943

\({num}\rightarrow{languageLabel}\)

\({languageLabel}\rightarrow{year}\)

\({num}\rightarrow{year}\)

1.4.2.3. Traitement des erreurs de couverture

Techniques d'Interpolation - L'interpolation consiste à estimer ou remplir les valeurs manquantes en se basant sur les données existantes. Exemple : Utilisation de méthodes d'interpolation, comme l'interpolation linéaire, pour estimer des valeurs manquantes dans une série chronologique.
Utilisation de Sources de Données Externes pour les Vérifications Croisées - La vérification croisée avec des sources externes implique l'utilisation de données provenant d'autres sources pour compléter ou valider les informations manquantes. Exemple : Intégrer des données provenant d'une source externe pour compléter les détails manquants dans une base de données client.

1.4.2.4. Administrateurs et traitement des erreurs

Retour d'Information des Utilisateurs pour Correction - Implique la collecte de commentaires et de corrections des utilisateurs pour améliorer la qualité des données. - Exemple : Plateformes collaboratives comme OpenStreetMap et Wikipedia permettent aux utilisateurs de signaler des erreurs et de contribuer à la correction des données.
Alertes et Déclencheurs en Cas d'Ajout d'Informations Incohérentes - Mise en place de mécanismes automatisés pour détecter et signaler les ajouts d'informations incohérentes. - Exemple : Utilisation d'alertes et de déclencheurs dans une base de données pour notifier les administrateurs lorsqu'une entrée incohérente est ajoutée.

1.5.1 Langages de programmation

Langues des Templates - Modèles prédéfinis pour formater et structurer les données.
XSLT (eXtensible Stylesheet Language Transformations) - Langage pour transformer et styliser les documents XML.
AWK - Langage de programmation pour l'extraction de données et la génération de rapports.
Sed (Stream Editor) - Utilisé pour effectuer des transformations simples sur les flux de texte.
Langages de Programmation tels que PERL - Puissants pour la manipulation de chaînes de caractères et la transformation complexe de données.

1.6.1. ETL (Extraction Transformation and Loading)

Extraction des Données : Récupération de données depuis différentes sources, qu'elles soient internes ou externes à l'organisation.
Nettoyage des Données : Identification et correction des erreurs, des incohérences et des duplications dans les données extraites.
Transformation des Données : Modification des données extraites pour les rendre conformes aux besoins et aux standards de l'entrepôt de données.
Chargement des Données dans les Entrepôts de Données : Intégration des données nettoyées et transformées dans l'entrepôt de données, prêtes pour l'analyse.

1.6.2. ETL: d'une base de données à l'autre

Déplacer efficacement les données des sources, telles que bases de données internes/externes et services web, vers les destinations, incluant entrepôts de données d'entreprise et entrepôts web, pour faciliter l'analyse.

De : Sources de données
- Bases de données internes ou externes, regroupant des données provenant de différentes sources.
- Services web fournissant des données via des API ou d'autres protocoles.
À : Entrepôts de données
- Entrepôts de données d'entreprise qui centralisent les informations pour l'analyse.
- Entrepôts Web spécialisés dans le stockage et l'analyse de données spécifiques à des applications en ligne.

1.6.2.1. Analyse des données multidimensionnelles

Exploration des données selon plusieurs dimensions pour une compréhension approfondie. L'approche 5W1H permet de mieux contextualiser l'analyse : Qui (Client), Quoi (Produit), Où (Lieu), Quand (Temps), Pourquoi (Promotion), Comment (Canal de vente).

Dimensions :Les aspects sous-jacents des données qui sont analysés.

Attributes (Attributs): : Caractéristiques spécifiques d'une dimension.
Niveaux: : Les différentes valeurs possibles pour un attribut.
Hiérarchies: : Organisation des niveaux en structures arborescentes.

Faits : Les mesures quantitatives associées aux dimensions, fournissant les données à analyser.

1.6.2.1. Analyse des données multidimensionnelles

Dimensions

Dimensions : Spatio-temporelles Dimensions, Produits.
Attributes : Par exemple, nom, fabricant, etc.
Niveaux : Par exemple, jour, mois, trimestre, magasin, ville, pays, etc.
Hiérarchies : Par exemple, jour-mois-trimestre-année, magasin-ville-pays, etc.

Faits

Faits : Mesures telles que le nombre de produits vendus/non vendus.

1.6.2.2. Modèle de données en étoile

Le modèle de données en étoile est une architecture de base de données conçue spécifiquement pour faciliter l'analyse et le reporting dans les entrepôts de données.

Schéma en Étoile :
- Caractérisé par une table centrale de faits entourée de tables de dimensions.
- La table centrale de faits contient les mesures numériques que l'on souhaite analyser.
Table de Faits :
- Contient des mesures quantitatives telles que les ventes, les quantités, etc.
- Souvent liée à des clés étrangères provenant des tables de dimensions.

1.6.2.2. Modèle de données en étoile

Tables de Dimensions :
- Contiennent des informations détaillées sur les dimensions associées aux faits.
- Exemples de dimensions : temps (date, mois, année), produits, clients, emplacements géographiques.
Relations Simples :
- Chaque table de dimension est liée à la table centrale de faits par des clés étrangères.
- Facilite les requêtes multidimensionnelles en permettant des analyses détaillées.
Avantages :
- Favorise la simplicité et la performance pour les requêtes analytiques complexes.
- Idéal pour les environnements où l'analyse multidimensionnelle est fréquente.

1.6.2.2. Modèle de données en étoile

Star schema example — Modèle de données en étoile

1.6.2.3. Cubes ou hypercube de données

Dans le modèle de données en étoile, les cubes de données, également appelés hypercubes, sont des structures multidimensionnelles qui permettent une analyse approfondie.

Structure Multidimensionnelle : Les cubes comprennent plusieurs dimensions, chacune correspondant à une table de dimensions dans le schéma en étoile.
Mesures au Centre : Les mesures quantitatives sont placées au centre du cube, correspondant à la table centrale de faits.
Analyse Multidimensionnelle : Permet une analyse approfondie en explorant les données le long de différentes dimensions.
Interactions avec les Dimensions : Les utilisateurs peuvent interagir avec les cubes en tranchant (slice), coupant (dice), ou pivotant (pivot) pour visualiser les données sous différents angles.

1.6.2.3. Cubes ou hypercube de données

Avantages

Facilite une analyse multidimensionnelle approfondie.
Permet des requêtes ad hoc pour répondre à des questions spécifiques.

OLAP cube - Star schema data model — Modèle de données en étoile

1.6.2.3. Cubes ou hypercube de données

Opérations du Cube OLAP

Cubes de Données pour le Traitement Analytique en Ligne (OLAP) : - Les cubes de données sont essentiels pour les systèmes OLAP, facilitant l'analyse multidimensionnelle.Les opérations OLAP permettent aux utilisateurs d'interagir avec les cubes pour obtenir des analyses spécifiques.

Slice (Tranche) - Extraction d'une tranche d'informations le long d'une dimension spécifique.
Dice (Bloc) - Extraction d'un bloc de données, une opération plus générale que le slicing, permettant de spécifier plusieurs dimensions.
Roll-up (Relevé) - Le Roll-up est une opération essentielle dans le traitement analytique en ligne (OLAP) pour agréger les données vers des niveaux supérieurs d'une hiérarchie dimensionnelle.

1.6.2.3. Cubes ou hypercube de données

Drill Up (Remonter) - Synthèse des informations en agrégeant vers des niveaux supérieurs d'une dimension.
Drill Down (Descendre) - Opération inverse du drill-up, permettant d'explorer des niveaux inférieurs d'une dimension.
Pivot (Pivoter) - Sélection du couple de dimensions qui formera le résultat de la requête, offrant une vue alternative.

1.6.2.4. Modèle de données en flocon

Le modèle de données en flocon est une variante du modèle en étoile, conçu pour réduire la redondance en normalisant les dimensions.

Structure en Flocon - Comme le modèle en étoile, il comprend une table centrale de faits et des tables de dimensions. Cependant, les tables de dimensions peuvent être normalisées, réduisant la duplication.
Tables de Dimensions Normalisées - Les tables de dimensions en flocon peuvent être décomposées en plusieurs tables normalisées, réduisant la redondance des données.
Relations Normalisées - Les relations entre les tables sont définies de manière à minimiser la redondance, mais cela peut complexifier les requêtes.

1.6.2.4. Modèle de données en flocon

Avantages

Réduit l'espace de stockage en normalisant les données.
Utile lorsque la redondance des données doit être minimisée.

Snowflake schema example — Modèle de données en flocon

Activités d'analyse des données

Récupération des Valeurs : Extraire les données nécessaires à partir de sources diverses pour l'analyse.
Filtrer : Sélectionner des données spécifiques en fonction de critères prédéfinis pour réduire le volume de données.
Calculer les Valeurs Dérivées : Créer de nouvelles variables en effectuant des calculs basés sur les valeurs existantes.
Trouver l'Extremum : Identifier les valeurs maximales et minimales dans un ensemble de données.
Trier : Organiser les données dans un ordre spécifique, souvent croissant ou décroissant.
Déterminer la Limite : Établir des seuils ou des limites pour définir des critères spécifiques.

Activités d'analyse des données

Caractériser la Distribution : Analyser la répartition des valeurs dans un ensemble de données à l'aide de mesures statistiques.
Trouver des Anomalies : Identifier des valeurs aberrantes ou des schémas inhabituels dans les données.
Cluster : Regrouper les données similaires pour découvrir des structures ou des tendances.
Corréler : Examiner les relations entre différentes variables pour déterminer les liens.
Contextualisation : Comprendre les données dans leur contexte global pour une interprétation plus approfondie.

https://en.wikipedia.org/wiki/Data_analysis

1.8.1.Les variables visuelles [Jacques Bertin]

Variables visuelles essentielles pour représenter les données.

Position : placement spatial.
Taille : magnitude.
Forme : catégorie.
Valeur : intensité/échelle.
Couleur : groupe ou mesure.
Orientation : direction.
Texture : variation de surface.

1.8.2. Visualisation des données : Exemples

Séries Temporelles : Représentation graphique de données en fonction du temps pour analyser les tendances et les fluctuations.
Classement : Affichage ordonné des éléments en fonction d'une mesure spécifique pour identifier les leaders ou les suiveurs.
Partie à l'Ensemble : Illustration de la contribution relative des parties à un ensemble total.
Écart : Représentation graphique des différences entre des valeurs, souvent utilisée pour identifier des variations significatives.
Triage : Organisation des données pour révéler des modèles ou des structures spécifiques.
Distribution des Fréquences : Visualisation de la répartition des valeurs dans un ensemble de données, souvent à l'aide d'histogrammes.

1.8.2. Visualisation des données : Exemples

Corrélation : Analyse visuelle des relations entre deux variables pour identifier des tendances ou des dépendances.
Comparaison Nominale : Visualisation des différences entre catégories sans mesure quantitative.
Géographique ou Géospatial : Utilisation de cartes pour représenter des données en fonction de leur emplacement géographique.

Référence: https://en.wikipedia.org/wiki/Data_visualization

1.8.2. Visualisation des données: Exemples

Diagramme en Bâtons (Comparaison Nominale) : Utilisé pour comparer des catégories sans mesure quantitative, représentant des données discrètes.
Diagramme Circulaire (Partie à l'Ensemble) : Illustration de la contribution relative des parties à un ensemble total, utile pour représenter des pourcentages.
Histogramme (Distribution des Fréquences) : Visualisation graphique de la répartition des valeurs dans un ensemble de données, utilisé pour comprendre la distribution.
Nuage de Points (Corrélation) : Représentation de la corrélation entre deux variables, chaque point représentant une paire de valeurs.
Réseaux : Illustration des relations complexes entre entités interconnectées.

1.8.2. Visualisation des données: Exemples

Graphique Linéaire (Séries Temporelles) : Représentation des données en fonction du temps pour analyser les tendances et les variations.
Arborescence : Visualisation hiérarchique des relations entre différentes catégories ou niveaux.
Diagramme de Gantt : Utilisé pour planifier et suivre l'avancement des tâches sur une échelle de temps.
Carte Thermique/Heatmap : Utilisation de couleurs pour représenter des données sur une matrice, mettant en évidence les zones de concentration.

https://fr.wikipedia.org/wiki/Repr%C3%A9sentation_graphique_de_donn%C3%A9es

Diagramme circulaire

Programming language paradigms bubble diagram — Les paradigmes du langage de programmation (diagramme à bulles)

Histropedia programming languages timeline — Historique des langages de programmation (Histropedia)

Wikidata Query Service programming languages influence — Diagramme d'influence des langages de programmation

k couleurs prédominantes

Diagrammes de dispersion RGB (Comparaison)

Articles de recherche

[Abedjan 2016] Abedjan, Ziawasch, et al. Detecting Data Errors: Where Are We and What Needs to Be Done? VLDB Endowment, 1 Aug. 2016.
[Dong 2013] Dong, Xin Luna, and Divesh Srivastava. “Big Data Integration.” 2013 IEEE 29th International Conference on Data Engineering (ICDE), 2013, pp. 1245–48. IEEE Xplore
[Lenzerini 2002] Lenzerini, Maurizio. “Data Integration: A Theoretical Perspective.” Proceedings of the Twenty-First ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems, Association for Computing Machinery, 2002, pp. 233–246. ACM Digital Library

Traitement de données massives

Traitement de données massives

Objectifs

1.1. Cycle de vie des données

Cycle de vie des données

1.1. Cycle de vie des données

1.1. Des données à la connaissance

1.1. Cycle de vie des données

1.1. Des données à la connaissance

1.1. Cycle de vie des données

1.1.1.1. Acquisition de données

1.1. Cycle de vie des données

1.1.1.2. ETL (Extraction Transformation, Loading)

1.1. Cycle de vie des données

1.1.1.2. ETL (Extraction Transformation, Loading)

1.1. Cycle de vie des données

1.1.1.3. Analyses de données

1.1. Cycle de vie des données

1.1.1.3. Analyses de données (Tableur)

1.1. Cycle de vie des données

1.1.1.3. Analyses de données (Tableur: formules)

1.1. Cycle de vie des données

1.1.1.4. Visualisation de données

1.1. Cycle de vie des données

1.1.1.4. Visualisation de données

1.2. Acquisition et stockage des données

L'acquisition de données [Lenzerini 2002][Dong 2013]

1.2. Acquisition et stockage des données

1.2.1. Formats de stockage de données

1.2. Acquisition et stockage des données

1.2.1. Formats de stockage de données: JSON

1.2. Acquisition et stockage des données

1.2.1. Formats de stockage de données: XML

1.2. Acquisition et stockage des données

1.2.1. Formats de stockage de données: CSV

1.2. Acquisition et stockage des données

1.2.2 Types de stockage des données

1.2. Acquisition et stockage des données

1.2.2 Types de stockage des données

1.2. Acquisition et stockage des données

1.2.3.1. Propriétés ACID1

1.2. Acquisition et stockage des données

1.2.3.1. Propriétés ACID

1.2. Acquisition et stockage des données

1.2.3.2 Types de bases de données

1.2. Acquisition et stockage des données

1.2.3.3. NoSQL

Théorème CAP1

1.2. Acquisition et stockage des données

1.2.3.3. NoSQL

Compromis sur la cohérence

Priorité à la disponibilité et à la rapidité

1.2. Acquisition et stockage des données

1.2.3.3. NoSQL : BASE

1.2. Acquisition et stockage des données

1.2.3.3. Types de bases de données NoSQL

1.2. Acquisition et stockage des données

1.2.3.3. Types de bases de données NoSQL

1.2. Acquisition et stockage des données

1.2.3.3. Types de bases de données NoSQL

1.2. Acquisition et stockage des données

Base de données relationnelles

1.2. Acquisition et stockage des données

Exemple: un tableau dans une base de données relationnelles

1.2. Acquisition et stockage des données

NoSQL: base de données orientée colonnes

1.2. Acquisition et stockage des données

Exemple: base de données orientée colonnes

1.2. Acquisition et stockage des données

NoSQL : base de données orientée documents

1.2. Acquisition et stockage des données

Exemple: base de données orientée clé-valeur

1.2. Acquisition et stockage des données

NoSQL: base de données orientée graphe

1.2. Acquisition et stockage des données

Exemple: base de données orientée graphe

1.3. Extraction et intégration des données

1.3.1. Techniques d'extraction des données

1.3. Extraction et intégration des données

1.3.2. Interfaces d'interrogation

1.2.3.1. Propriétés ACID¹

Théorème CAP¹