Traitement de données massives

Introduction

2025-2026

John Samuel
CPE Lyon

john.samuel@cpe.fr

Objectifs

Explorer l'évolution historique du traitement de données massives (Big Data).
Maîtriser la représentation, manipulation et prétraitement des données.
Appliquer des méthodes avancées de traitement des données.
Construire des modèles par apprentissage machine pour analyser et prédire.
Intégrer les données ouvertes liées pour enrichir les analyses.
Se familiariser avec Hadoop, Hive et Spark pour l'analyse grande échelle.

🐧

Linux/Ubuntu

Jupyter

🐍

Python

⚙️

Big Data

Environnement de programmation

Linux (Ubuntu) ou VM (VirtualBox + Ubuntu)

Jupyter · pandas · numpy · matplotlib · scikit-learn

Hadoop · Hive · Spark · Docker/Kubernetes

📘

Cours interactifs

📝

Devoir surveillé (60%)

🧪

TP & Projet (40%)

🤝

Travail en binôme

☁️

Soumission en ligne

Organisation du cours

Cours interactifs · 60%

TP & Projet · 7 TPs (parties 1 et 2) · 40%

Devoir surveillé (DS)

Examen: En-ligne sur E-campus
Durée: 2 heures. Total: 20 points
Documents: autorisés ; Types de documents autorisés: tous les documents autorisés
Calculatrices: non autorisées
Utilisation de l'internet: non autorisée
Dépôt supplémentaire: disponible pour les fichiers personnels

Vous recevrez un courrier détaillé avant l'examen.

Travaux pratiques et projet

Les 2 deux parties du projet seront évaluées.
L'évaluation est divisée en deux parties distinctes : Partie 1 d'un côté et Partie 2 de l'autre.
Deux dates limites de soumission sont précisées sur e-campus, correspondant à chaque partie de projet.
Il est fortement conseillé de travailler en binôme pour favoriser la collaboration et l'efficacité.

Cours 1 2h

9 février (matin)

Cours 2 2h

9 février (après-midi)

Cours 3 2h

10 février

Cours 4 2h

12 février

Cours 5 2h

12 mars

Cours 6 2h

17 mars

Cours 7 2h

19 mars

Cours 8 2h

23 mars

Cours 9 2h

24 mars

Cours 10 2h

22 avril

TP 1 9 février

TP 2 10 et 12 février

TP 3 24 février

TP 4 + Projet (partie 1) 26 février

Projet (partie 1) 12 et 17 mars

TP 5 + Projet (partie 2) 19 et 23 mars

TP 6 + Projet (partie 2) 24 et 25 mars (matin)

TP 7 + Projet (partie 2) 25 mars (après-midi) et 22 avril

Projet (partie 2) 5 mai

Travaux pratiques

Exploration approfondie de Jupyter, une plateforme interactive prisée pour l'analyse de données. Création de notebooks interactifs, intégration de code et de visualisations pour une analyse interactive des données massives.
Expérience pratique avec des jeux de données ouvertes, permettant une compréhension concrète des enjeux liés au traitement massif. Application de techniques avancées pour extraire des informations significatifs à partir de données volumineuses et hétérogènes.

Soumission: Travaux pratiques et projet

TP	Points
TP 1-7	Non noté
Projet	20 points

Les TP, notés de 1 à 7, ne sont pas soumis à évaluation. Cependant, la participation active et l'assiduité sont fortement encouragées pour une meilleure compréhension des concepts enseignés.
L'évaluation du projet compte pour 20 points.

Travaux pratiques

Chaque TP comporte plusieurs exercices. Chaque exercice est accompagné d'une indication de niveau de difficulté:

★ ★ ★

Facile

★ ★ ★

Difficulté moyenne

★ ★ ★

Difficile

Liste de contrôle

Avant de soumettre votre travail pratique, veuillez vérifier que vous avez respecté la liste de contrôle suivante :

Les noms complets (prénom et noms) de la binôme sont correctement inclus dans le fichier CONTRIBUTORS.md.

Le fichier README.md est rempli de manière exhaustive et conforme aux instructions fournies.

Vous avez respecté les noms de fichiers tels que spécifiés dans chaque exercice des travaux pratiques.

Votre code est accompagné de commentaires appropriés pour expliquer la logique et la fonctionnalité.

Votre code peut être exécuté sans générer d'erreurs, et dans la mesure du possible, sans générer d'avertissements.

github.com/johnsamuelwrites/TDM

$ git clone https://github.com/johnsamuelwrites/TDM
$ cd TDM && ls

Pour les mises à jour:

$ git pull

Travaux pratiques: Notebooks Jupyter

Lorsque vous créez un nouveau notebook (onglet "New"), vous aurez la possibilité de choisir parmi plusieurs kernels.
Assurez-vous de sélectionner le kernel "Python 3" ou "Python 3+" pour ce TP.

Travaux pratiques: Notebooks Jupyter

Découpage structuré : Divisez le code en cellules, facilitant la compréhension, la modification, et le débogage par étapes.
Interactivité : Exécutez du code Python directement dans le notebook, permettant une exploration interactive des données.
Avantages - Communication complète : Combine explications, visualisations, et code dans un seul document, facilitant la compréhension et le partage avec d'autres.

Travaux pratiques: notebook Jupyter

Explorer l'utilisation de la bibliothèque scikit-learn pour la mise en œuvre de tâches d'apprentissage machine à l'aide de jeux de données intégrés.

Travaux pratiques: Visualisation et notebook Jupyter

Travaux pratiques: Visualisation et notebook Jupyter

Travaux pratiques: Wikidata (Open Data)

Cadran solaire

Mesure du temps : Utilisé pour indiquer l'heure en fonction de la position du soleil et suivre des changements saisonniers et des équinoxes.
Principe de base : Ombre projetée par un style sur une surface graduée.

Les cadrans solaires témoignent de l'ingéniosité scientifique de l'antiquité. Ils ont influencé le développement ultérieur des instruments astronomiques.

Ancient egyptian sundial — Ancien cadran solaire egyptien (1500 av. J.-C. )

Système de numération

Système de numération

Utilisation pour représenter et manipuler des quantités.
Contribution à la collecte et à l'organisation des données.

Exemples de Systèmes Anciens

Système Babylonien : Base 60, utilisé pour des calculs astronomiques.
Numération Maya : Base 20, avec un système de points et de traits.
Système Romain : Symboles alphanumériques pour représenter des quantités.

Système de numération

Applications

Enregistrement historique : Utilisation de ces systèmes pour enregistrer des données importantes.
Calculs astronomiques : Adaptation à des besoins spécifiques comme les calculs astronomiques.

Transition vers les systèmes modernes

Évolution numérique : Passage aux systèmes binaires et décimaux.
Héritage culturel : Impact persistant sur la numération moderne.

Typewriter Underwood typewriter Kroton 001 — Machine à écrire

Machine à Écrire

Invention : Développement au 19e siècle pour la saisie et la documentation.
Traitement manuel : Limitations liées à la vitesse et à la capacité.

Machine à écrire électronique

Transition numérique : Intégration de composants électroniques dans les machines à écrire.
Augmentation de la vitesse et de l'efficacité : Améliorations dans le traitement de l'information.

Automatisation Partielle : Réduction des tâches manuelles dans la saisie de données.

Arts et Metiers Pascaline dsc03869 — Machine à calculer de Blaise Pascal à six chiffres

Difference engine plate 1853 — Machine à différences de Charles Babbage

Machine à calculer de Blaise Pascal

Invention au 17e siècle : Calculatrice mécanique à six chiffres.
Utilisation scientifique : Contribution à la résolution de problèmes mathématiques complexes.

Machine à Différences de Charles Babbage

Conception au 19e siècle : Machine mécanique pour automatiser les calculs.
Précurseur des ordinateurs : Influence sur le développement des ordinateurs modernes.

Automatisation des calculs : Réduction du temps nécessaire pour effectuer des calculs complexes.

Avancées scientifiques : Facilitation de la recherche scientifique grâce à des outils de calcul plus efficaces.

L'ENIAC (1947-1955)

Pionnier de l'ère informatique : Premier ordinateur électronique de grande échelle.
Calculs complexes : Utilisé pour des calculs scientifiques et militaires.

IBM PC 5150 (1983) :

Ère des ordinateurs personnels : Lancement du premier IBM PC accessible au grand public.
Révolution informatique : Popularisation de l'informatique domestique et des logiciels.

Démocratisation de l'informatique : Transition vers l'accessibilité et l'utilisation généralisée des ordinateurs.

Précurseurs des technologies actuelles : Fondement des systèmes informatiques modernes.

Développement : Introduction dans les années 1970.
Technologie d'Impact : Utilisation de têtes d'impression à impact pour former des caractères.
Polyvalence : Adaptée à l'impression de documents et de rapports.

Sortie de données : Facilitation de la visualisation des informations traitées.

Usage commercial : Adoption répandue dans les environnements professionnels.

Ff30f panasonic kx p 1150 dotmatrix yazici — Imprimante matricielle (Panasonic)

Floppy disk 2009 G1 — Disquettes 8 pouces, 5,25 pouces et 3,5 pouces

Hard disk dismantled — L’intérieur d’un disque dur

Disquettes (8 Pouces, 5,25 Pouces et 3,5 Pouces)

Développement : Introduction des différentes tailles de disquettes dans les années 1970 et 1980.
Stockage Amovible : Moyen de stockage pratique pour le transfert de données.

Disque Dur

Développement : Introduction des premiers disques durs dans les années 1950.
Stockage Permanent : Utilisation de disques magnétiques pour stocker des données de manière permanente.
Capacité Croissante : Évolution vers des disques durs offrant une capacité de stockage de plus en plus importante.

Stockage portable et massif: Disquettes pour la portabilité des données et le stockage volumineux et permanent.

Serveurs : Impact sur les méthodes de stockage de données et contribution à la gestion centralisée des données.

Origines : Émergence des serveurs dans les débuts de l'informatique.
Centralisation des ressources : Utilisation des serveurs pour centraliser le stockage et la gestion des données.
Connectivité réseau : Intégration des serveurs dans des environnements réseau.

Floridaserversfront1 — Stockage: Serveurs

Évolution des technologies serveur

Améliorations de la capacité : Augmentation de la capacité de stockage des serveurs au fil du temps.
Virtualisation : Introduction de technologies de virtualisation pour une utilisation plus efficace des ressources.
Stockage cloud : Transition vers des solutions de stockage basées sur le cloud.

Impact

Centralisation et partage : Facilitation de la centralisation et du partage des données.
Sécurité et redondance : Utilisation des serveurs pour assurer la sécurité et la redondance des données.
Précurseurs des infrastructures de données modernes : Fondement des systèmes de stockage actuels.

Hilbert InfoGrowth — Croissance de la capacité mondiale de stockage de données et informations

Croissance des Capacités de Stockage

Début de l'informatique : Capacités de stockage modestes, souvent mesurées en kilooctets.
Années 2000 : Expansion significative avec l'avènement des disques durs de plusieurs gigaoctets.
Époque contemporaine : Térabytes et pétaoctets deviennent la norme.

Technologies de Stockage Émergentes

Stockage Flash : Introduction de la mémoire flash pour des performances rapides.
Stockage en nuage : Utilisation de services cloud pour une capacité virtuellement infinie.
Innovations futures : Anticipation de nouvelles avancées dans le stockage quantique, etc.

Systèmes

Systèmes distribués (a,b)

Origines : Développement des concepts de systèmes distribués dans les années 1960.
Caractéristiques : Répartition des tâches sur des machines connectées en réseau.
Avancements Modernes : Utilisation dans les applications cloud et les réseaux distribués contemporains.

Distributed parallel — Calcul distribué
https://commons.wikimedia.org/wiki/File:Distributed-parallel.svg

Systèmes

Systèmes parallèles (c)

Développement : Émergence des systèmes parallèles pour exécuter des tâches simultanées.
Traitement Parallèle : Utilisation de multiples processeurs pour accélérer le traitement.
Applications Actuelles : Intégration dans les supercalculateurs et les environnements informatiques intensifs.

Calcul distribué

Les projets suivants ont utilisé la puissance de traitement des ordinateurs personnels pour différents objectifs

Genome@home: pour l'étude des génomes et des protéines
Folding@home: simuler le repliement des protéines dans diverses configurations de température et de pression
SETI@home: détecter de la vie intelligente non terrestre
LHC@Home: simuler les collisions de particules élémentaires dans l’accélérateur de particules LHC

Screenshot 2020 11 12 Google Trends — Tendances de recherche Google (novembre 2020): Big Data

Screenshot 2020 11 12 Google Trends BigData AI — Tendances de recherche Google (novembre 2020): Big Data et Artificial Intelligence

Screenshot 2020 11 12 Google Trends BigData AI Blockchain — Tendances de recherche Google (novembre 2020): Big Data, Artificial Intelligence et Blockchain

Le populisme de la base de données [Driscoll 2012]

La surveillance et le contrôle
La fonction sociale de la technologie des bases de données
- fin du XIXe siècle: les systèmes de cartes perforées électromécaniques et le traitement de l'information à grande échelle
- fin des années 1970: la disponibilité des micro-ordinateurs et la mise en œuvre du modèle de données relationnelles
- début du 21ème siècle: le traçage des utilisateurs grâce à des systèmes de communication hautement centralisés

Big Data: 3V [Chen 2012, Kwon 2014, Gandomi 2015]

Volume
- Images et vidéos
Variété
- données structurées
- données non-structurées
- données semi-structurées
Vélocité
- la vitesse à laquelle les données sont générées
- millions de transactions par heure

Big Data: 6V [Gandomi 2015]

Volume
Variété
Vélocité
Verité
- traiter des données imprécises et incertaines
Variabilité
- la variation des flux de données
- des pics et des dépressions
Valeur
- obtenir une valeur élevée en analysant de grands volumes de données

Big Data [Kitchin 2016]

Exhaustif
- capable de capturer un système entier
Extension
- de nouveaux éléments peuvent être facilement ajoutés

Articles de recherche

[Chen 2014] Chen, Min, et al. “Big Data: A Survey.” Mobile Networks and Applications, vol. 19, no. 2, Apr. 2014, pp. 171–209. Springer Link
[Driscoll 2012] Driscoll, Kevin. “From Punched Cards to ‘Big Data’: A Social History of Database Populism.” Communication 1, vol. 1, no. 1, Aug. 2012, pp. 1–33
[Gandomi 2015] Gandomi, Amir, and Murtaza Haider. “Beyond the Hype: Big Data Concepts, Methods, and Analytics.” International Journal of Information Management, vol. 35, no. 2, Apr. 2015, pp. 137–44.
[Kitchin 2016] Kitchin, Rob. “Big Data.” International Encyclopedia of Geography, American Cancer Society, 2016, pp. 1–3. Wiley Online Library
[Kwon 2014] Kwon, Ohbyung, et al. “Data Quality Management, Data Usage Experience and Acquisition Intention of Big Data Analytics.” International Journal of Information Management, vol. 34, no. 3, June 2014, pp. 387–94.

Traitement de données massives

Introduction

2025-2026

John SAMUEL

Traitement de données massives

Objectifs

Traitement de données massives

Environnement de programmation

Traitement de données massives

Organisation du cours

Traitement de données massives

Devoir surveillé (DS)

Traitement de données massives

Travaux pratiques et projet

Traitement de données massives

Traitement de données massives

Traitement de données massives

Travaux pratiques

Traitement de données massives

Soumission: Travaux pratiques et projet

Traitement de données massives

Travaux pratiques

Facile

Difficulté moyenne

Difficile

Traitement de données massives

Liste de contrôle

Traitement de données massives

github.com/johnsamuelwrites/TDM

Pour les mises à jour:

Traitement de données massives

Travaux pratiques: Notebooks Jupyter

Traitement de données massives: Notebooks Jupyter

Travaux pratiques: Notebooks Jupyter

Traitement de données massives: Notebooks Jupyter

Travaux pratiques: notebook Jupyter

Traitement de données massives: Notebooks Jupyter

Travaux pratiques: Visualisation et notebook Jupyter

Traitement de données massives: Notebooks Jupyter

Travaux pratiques: Visualisation et notebook Jupyter

Traitement de données massives

Travaux pratiques: Wikidata (Open Data)

Histoire scientifique

Cadran solaire

Histoire scientifique

Système de numération

Histoire scientifique

Système de numération

Exemples de Systèmes Anciens

Histoire scientifique

Système de numération

Applications

Transition vers les systèmes modernes

Histoire scientifique

Histoire scientifique

Machine à Écrire

Machine à écrire électronique

Histoire scientifique

Histoire scientifique

Machine à calculer de Blaise Pascal

Machine à Différences de Charles Babbage

Histoire scientifique

Histoire scientifique

L'ENIAC (1947-1955)

IBM PC 5150 (1983) :

Histoire scientifique

Histoire scientifique

Histoire scientifique

Disquettes (8 Pouces, 5,25 Pouces et 3,5 Pouces)

Disque Dur

Histoire scientifique

Histoire scientifique

Évolution des technologies serveur

Impact

Histoire scientifique

Histoire scientifique

Croissance des Capacités de Stockage

Technologies de Stockage Émergentes

Histoire scientifique

Systèmes