Traitement de données massives

Introduction

2025-2026

John Samuel
CPE Lyon
john.samuel@cpe.fr
Creative Commons License

John SAMUEL

John Samuel
  • Enseignant-Chercheur, Conception Logicielle et Big Data, CPE Lyon
  • Intérêts et thèmes de recherche: Représentation de connaissances, le web sémantique, les services web, l'intégration de données, l'entrepôt de données, les systèmes distribués, système d'information géographique
  • Cours: Programmation en C, Algorithmes en C, Data Mining et Machine Learning, Intelligence Artificielle et Deep Learning, Systèmes d'exploitation et Programmation Concurrente, Langages Web
  • Thèse: Intégration des données issues de services web
  • HDR : Des regards sémantiques pour des villes intelligentes, durables et inclusives

Traitement de données massives

Objectifs

  • Explorer l'évolution historique du traitement de données massives (Big Data).
  • Maîtriser la représentation, manipulation et prétraitement des données.
  • Appliquer des méthodes avancées de traitement des données.
  • Construire des modèles par apprentissage machine pour analyser et prédire.
  • Intégrer les données ouvertes liées pour enrichir les analyses.
  • Se familiariser avec Hadoop, Hive et Spark pour l'analyse grande échelle.

Traitement de données massives

🐧
Linux/Ubuntu
Jupyter Jupyter
🐍
Python
⚙️
Big Data

Environnement de programmation

Linux (Ubuntu) ou VM (VirtualBox + Ubuntu)
Jupyter · pandas · numpy · matplotlib · scikit-learn
Hadoop · Hive · Spark · Docker/Kubernetes

Traitement de données massives

📘
Cours interactifs
📝
Devoir surveillé (60%)
🧪
TP & Projet (40%)
🤝
Travail en binôme
☁️
Soumission en ligne

Organisation du cours

Cours interactifs · 60%
TP & Projet · 7 TPs (parties 1 et 2) · 40%

Traitement de données massives

Devoir surveillé (DS)

  • Examen: En-ligne sur E-campus
  • Durée: 2 heures. Total: 20 points
  • Documents: autorisés ; Types de documents autorisés: tous les documents autorisés
  • Calculatrices: non autorisées
  • Utilisation de l'internet: non autorisée
  • Dépôt supplémentaire: disponible pour les fichiers personnels

Vous recevrez un courrier détaillé avant l'examen.

Traitement de données massives

Travaux pratiques et projet

Traitement de données massives

Cours 1 2h
9 février (matin)
Cours 2 2h
9 février (après-midi)
Cours 3 2h
10 février
Cours 4 2h
12 février
Cours 5 2h
12 mars
Cours 6 2h
17 mars
Cours 7 2h
19 mars
Cours 8 2h
23 mars
Cours 9 2h
24 mars
Cours 10 2h
22 avril

Traitement de données massives

TP 1 9 février
TP 2 10 et 12 février
TP 3 24 février
TP 4 + Projet (partie 1) 26 février
Projet (partie 1) 12 et 17 mars
TP 5 + Projet (partie 2) 19 et 23 mars
TP 6 + Projet (partie 2) 24 et 25 mars (matin)
TP 7 + Projet (partie 2) 25 mars (après-midi) et 22 avril
Projet (partie 2) 5 mai

Traitement de données massives

Travaux pratiques

Jupyter logo Open Definition logo

Traitement de données massives

Soumission: Travaux pratiques et projet

TP Points
TP 1-7 Non noté
Projet 20 points

Traitement de données massives

Travaux pratiques

Chaque TP comporte plusieurs exercices. Chaque exercice est accompagné d'une indication de niveau de difficulté:

Facile

Difficulté moyenne

Difficile

Traitement de données massives

Liste de contrôle

Avant de soumettre votre travail pratique, veuillez vérifier que vous avez respecté la liste de contrôle suivante :

Les noms complets (prénom et noms) de la binôme sont correctement inclus dans le fichier CONTRIBUTORS.md.
Le fichier README.md est rempli de manière exhaustive et conforme aux instructions fournies.
Vous avez respecté les noms de fichiers tels que spécifiés dans chaque exercice des travaux pratiques.
Votre code est accompagné de commentaires appropriés pour expliquer la logique et la fonctionnalité.
Votre code peut être exécuté sans générer d'erreurs, et dans la mesure du possible, sans générer d'avertissements.

Traitement de données massives

github.com/johnsamuelwrites/TDM

$ git clone https://github.com/johnsamuelwrites/TDM
$ cd TDM && ls

Pour les mises à jour:

$ git pull

Traitement de données massives

Travaux pratiques: Notebooks Jupyter

Jupyternotebook

Traitement de données massives: Notebooks Jupyter

Travaux pratiques: Notebooks Jupyter

  • Découpage structuré : Divisez le code en cellules, facilitant la compréhension, la modification, et le débogage par étapes.
  • Interactivité : Exécutez du code Python directement dans le notebook, permettant une exploration interactive des données.
  • Avantages - Communication complète : Combine explications, visualisations, et code dans un seul document, facilitant la compréhension et le partage avec d'autres.
Jupyterprogram

Traitement de données massives: Notebooks Jupyter

Travaux pratiques: notebook Jupyter

Jupyterscikit

Traitement de données massives: Notebooks Jupyter

Travaux pratiques: Visualisation et notebook Jupyter

Histogramsubplots Piechart

Traitement de données massives: Notebooks Jupyter

Travaux pratiques: Visualisation et notebook Jupyter

Subplots

Traitement de données massives

Travaux pratiques: Wikidata (Open Data)

Wikidataquery

Histoire scientifique

Cadran solaire

  • Mesure du temps : Utilisé pour indiquer l'heure en fonction de la position du soleil et suivre des changements saisonniers et des équinoxes.
  • Principe de base : Ombre projetée par un style sur une surface graduée.

Les cadrans solaires témoignent de l'ingéniosité scientifique de l'antiquité. Ils ont influencé le développement ultérieur des instruments astronomiques.

Ancient egyptian sundial
Ancien cadran solaire egyptien (1500 av. J.-C. )

Histoire scientifique

Système de numération

Numeral Systems of the World
Hauptbuch Hochstetter vor 1828
Papyrus bill of sale donkey

Histoire scientifique

Système de numération

Exemples de Systèmes Anciens

Histoire scientifique

Système de numération

Applications

Transition vers les systèmes modernes

Histoire scientifique

Typewriter Underwood typewriter Kroton 001
Machine à écrire
Type
Machine à écrire électronique

Histoire scientifique

Machine à Écrire

Machine à écrire électronique

Automatisation Partielle : Réduction des tâches manuelles dans la saisie de données.

Histoire scientifique

Arts et Metiers Pascaline dsc03869
Machine à calculer de Blaise Pascal à six chiffres
Difference engine plate 1853
Machine à différences de Charles Babbage

Histoire scientifique

Machine à calculer de Blaise Pascal

Machine à Différences de Charles Babbage

Automatisation des calculs : Réduction du temps nécessaire pour effectuer des calculs complexes.

Avancées scientifiques : Facilitation de la recherche scientifique grâce à des outils de calcul plus efficaces.

Histoire scientifique

Eniac
L'ENIAC (photo prise entre 1947 et 1955).
IBM PC 5150
IBM PC 5150 en 1983

Histoire scientifique

L'ENIAC (1947-1955)

IBM PC 5150 (1983) :

Démocratisation de l'informatique : Transition vers l'accessibilité et l'utilisation généralisée des ordinateurs.

Précurseurs des technologies actuelles : Fondement des systèmes informatiques modernes.

Histoire scientifique

  • Développement : Introduction dans les années 1970.
  • Technologie d'Impact : Utilisation de têtes d'impression à impact pour former des caractères.
  • Polyvalence : Adaptée à l'impression de documents et de rapports.

Sortie de données : Facilitation de la visualisation des informations traitées.

Usage commercial : Adoption répandue dans les environnements professionnels.

Ff30f panasonic kx p 1150 dotmatrix yazici
Imprimante matricielle (Panasonic)

Histoire scientifique

Floppy disk 2009 G1
Disquettes 8 pouces, 5,25 pouces et 3,5 pouces
Hard disk dismantled
L’intérieur d’un disque dur

Histoire scientifique

Disquettes (8 Pouces, 5,25 Pouces et 3,5 Pouces)

Disque Dur

Stockage portable et massif: Disquettes pour la portabilité des données et le stockage volumineux et permanent.

Histoire scientifique

Serveurs : Impact sur les méthodes de stockage de données et contribution à la gestion centralisée des données.

  • Origines : Émergence des serveurs dans les débuts de l'informatique.
  • Centralisation des ressources : Utilisation des serveurs pour centraliser le stockage et la gestion des données.
  • Connectivité réseau : Intégration des serveurs dans des environnements réseau.
Floridaserversfront1
Stockage: Serveurs

Histoire scientifique

Évolution des technologies serveur

  • Améliorations de la capacité : Augmentation de la capacité de stockage des serveurs au fil du temps.
  • Virtualisation : Introduction de technologies de virtualisation pour une utilisation plus efficace des ressources.
  • Stockage cloud : Transition vers des solutions de stockage basées sur le cloud.

Impact

  • Centralisation et partage : Facilitation de la centralisation et du partage des données.
  • Sécurité et redondance : Utilisation des serveurs pour assurer la sécurité et la redondance des données.
  • Précurseurs des infrastructures de données modernes : Fondement des systèmes de stockage actuels.

Histoire scientifique

Hilbert InfoGrowth
Croissance de la capacité mondiale de stockage de données et informations

Histoire scientifique

Croissance des Capacités de Stockage

Technologies de Stockage Émergentes

Histoire scientifique

Systèmes

Systèmes distribués (a,b)

  • Origines : Développement des concepts de systèmes distribués dans les années 1960.
  • Caractéristiques : Répartition des tâches sur des machines connectées en réseau.
  • Avancements Modernes : Utilisation dans les applications cloud et les réseaux distribués contemporains.
Distributed parallel
Calcul distribué
https://commons.wikimedia.org/wiki/File:Distributed-parallel.svg

Histoire scientifique

Systèmes

Systèmes parallèles (c)

  • Développement : Émergence des systèmes parallèles pour exécuter des tâches simultanées.
  • Traitement Parallèle : Utilisation de multiples processeurs pour accélérer le traitement.
  • Applications Actuelles : Intégration dans les supercalculateurs et les environnements informatiques intensifs.
Distributed parallel
Calcul distribué
https://commons.wikimedia.org/wiki/File:Distributed-parallel.svg

Histoire scientifique

Calcul distribué

Les projets suivants ont utilisé la puissance de traitement des ordinateurs personnels pour différents objectifs

Histoire scientifique

Screenshot 2020 11 12 Google Trends
Tendances de recherche Google (novembre 2020): Big Data

Histoire scientifique

Screenshot 2020 11 12 Google Trends BigData AI
Tendances de recherche Google (novembre 2020): Big Data et Artificial Intelligence

Histoire scientifique

Screenshot 2020 11 12 Google Trends BigData AI Blockchain
Tendances de recherche Google (novembre 2020): Big Data, Artificial Intelligence et Blockchain

Histoire scientifique

Le populisme de la base de données [Driscoll 2012]

Histoire scientifique

Big Data: 3V [Chen 2012, Kwon 2014, Gandomi 2015]

Histoire scientifique

Big Data: 6V [Gandomi 2015]

Histoire scientifique

Big Data [Kitchin 2016]

Références

Articles de recherche

Références

Crédits d'images