Traitement de données massives

John Samuel
CPE Lyon

Année: 2024-2025
Courriel: john.samuel@cpe.fr

Creative Commons License

John SAMUEL

  • Enseignant-Chercheur, Conception Logicielle et Big Data, CPE Lyon,
  • Intérêts et thèmes de recherche : Représentation de connaissances, le web sémantique, les services web, l'intégration de données, l'entrepôt de données, les systèmes distribués, système d'information géographique
  • Cours : Programmation en C, Algorithmes en C, Data Mining et Machine Learning, Intelligence Artificielle et Deep Learning, Systèmes d'exploitation et Programmation Concurrente, Langages Web
  • Thèse : Intégration des données issues de services web

Traitement de données massives

Objectifs

  1. Explorer l'évolution historique du traitement de données massives (Big Data), ses origines et son impact sur la science.
  2. Maîtriser les techniques de représentation, manipulation et prétraitement des données pour en optimiser l'utilisation.
  3. Appliquer des méthodes avancées de traitement des données pour extraire des informations pertinentes et exploitables.
  4. Construire des modèles de traitement par apprentissage machine afin d'analyser et de prédire des tendances à partir de données massives.
  5. Intégrer les données ouvertes liées dans vos analyses pour enrichir vos résultats.
  6. Se familiariser avec les outils essentiels tels que Hadoop, Hive et Spark pour mener des analyses approfondies sur de vastes ensembles de données.

Traitement de données massives

Environnement de programmation:

Traitement de données massives

Cours:

Travaux pratiques et projet

Traitement de données massives

Devoir surveillé (DS): 60%

Vous recevrez un courrier détaillé avant l'examen

Traitement de données massives

Travaux pratiques et projet

Traitement de données massives

Cours Dates
Cours 1 (4h) 6 février
Cours 2 (2h) 5 mars
Cours 3 (2h) 19 mars
Cours 4 (4h) 21 mars
Cours 5 (4h) 27 mars
Cours 6 (4h) 16 avril

Traitement de données massives

Travaux pratiques Dates
Séance 1 (TP 1) 20 février
Séance 2 (TP 2) 5 et 19 mars
Séance 3 (TP 3) 26 mars
Séance 4 (Projet partie 1) 28 mars
Séance 5 (Projet partie 1) 9 avril
Séance 6 (TP 4 et Projet partie 2) 10 avril
Séance 7 (TP 5 et Projet partie 2) 11 avril
Séance 8 (Projet partie 2) 17 avril
Séance 9 (Projet partie 2) 18 avril

Traitement de données massives

Travaux pratiques

Traitement de données massives

Soumission: Travaux pratiques et projet

TP Points
TP 1-5
Projet ✅ (20 points)

Traitement de données massives

Travaux pratiques

Chaque TP comporte plusieurs exercices. Chaque exercice est accompagné d'une indication de niveau de difficulté :

Traitement de données massives

Liste de contrôle

Avant de soumettre votre travail pratique, veuillez vérifier que vous avez respecté la liste de contrôle suivante :

Traitement de données massives

Modèle de code

Vous pouvez consulter https://github.com/johnsamuelwrites/TDM en ligne
ou le cloner sur votre machine à l'aide du terminal en utilisant les commandes suivantes.

                	  $ git clone https://github.com/johnsamuelwrites/TDM
$ cd TDM ; ls

Et pour les dernières modifications:

                	  $ git pull

Traitement de données massives

Travaux pratiques: Notebooks Jupyter

Traitement de données massives: Notebooks Jupyter

Travaux pratiques: Notebooks Jupyter

Traitement de données massives: Notebooks Jupyter

Travaux pratiques: notebook Jupyter

Traitement de données massives: Notebooks Jupyter

Travaux pratiques: Visualisation et notebook Jupyter

Traitement de données massives: Notebooks Jupyter

Travaux pratiques: Visualisation et notebook Jupyter

Traitement de données massives

Travaux pratiques: Wikidata (Open Data)

Histoire scientifique

Cadran solaire

  • Mesure du temps : Utilisé pour indiquer l'heure en fonction de la position du soleil et suivre des changements saisonniers et des équinoxes.
  • Principe de base : Ombre projetée par un style sur une surface graduée.

Les cadrans solaires témoignent de l'ingéniosité scientifique de l'antiquité. Ils ont influencé le développement ultérieur des instruments astronomiques.

Ancien cadran solaire egyptien (1500 av. J.-C. )

Histoire scientifique

Système de numération

Histoire scientifique

Système de numération

Exemples de Systèmes Anciens

Histoire scientifique

Système de numération

Applications

Transition vers les systèmes modernes

Histoire scientifique

Machine à écrire
Machine à écrire électronique

Histoire scientifique

Machine à Écrire

Machine à écrire électronique

Automatisation Partielle : Réduction des tâches manuelles dans la saisie de données.

Histoire scientifique

Machine à calculer de Blaise Pascal à six chiffres
Machine à différences de Charles Babbage

Histoire scientifique

Machine à calculer de Blaise Pascal

Machine à Différences de Charles Babbage

Automatisation des calculs : Réduction du temps nécessaire pour effectuer des calculs complexes.

Avancées scientifiques : Facilitation de la recherche scientifique grâce à des outils de calcul plus efficaces.

Histoire scientifique

L'ENIAC (photo prise entre 1947 et 1955).
IBM PC 5150 en 1983

Histoire scientifique

L'ENIAC (1947-1955)

IBM PC 5150 (1983) :

Démocratisation de l'informatique : Transition vers l'accessibilité et l'utilisation généralisée des ordinateurs.

Précurseurs des technologies actuelles : Fondement des systèmes informatiques modernes.

Histoire scientifique

  • Développement : Introduction dans les années 1970.
  • Technologie d'Impact : Utilisation de têtes d'impression à impact pour former des caractères.
  • Polyvalence : Adaptée à l'impression de documents et de rapports.

Sortie de données : Facilitation de la visualisation des informations traitées.

Usage commercial : Adoption répandue dans les environnements professionnels.

Imprimante matricielle (Panasonic)

Histoire scientifique

Disquettes 8 pouces, 5,25 pouces et 3,5 pouces
L’intérieur d’un disque dur

Histoire scientifique

Disquettes (8 Pouces, 5,25 Pouces et 3,5 Pouces)

Disque Dur

Stockage portable et massif: Disquettes pour la portabilité des données et le stockage volumineux et permanent.

Histoire scientifique

Serveurs : Impact sur les méthodes de stockage de données et contribution à la gestion centralisée des données.

  • Origines : Émergence des serveurs dans les débuts de l'informatique.
  • Centralisation des ressources : Utilisation des serveurs pour centraliser le stockage et la gestion des données.
  • Connectivité réseau : Intégration des serveurs dans des environnements réseau.
Stockage: Serveurs

Histoire scientifique

Évolution des technologies serveur

  • Améliorations de la capacité : Augmentation de la capacité de stockage des serveurs au fil du temps.
  • Virtualisation : Introduction de technologies de virtualisation pour une utilisation plus efficace des ressources.
  • Stockage cloud : Transition vers des solutions de stockage basées sur le cloud.

Impact

  • Centralisation et partage : Facilitation de la centralisation et du partage des données.
  • Sécurité et redondance : Utilisation des serveurs pour assurer la sécurité et la redondance des données.
  • Précurseurs des infrastructures de données modernes : Fondement des systèmes de stockage actuels.

Histoire scientifique

Croissance de la capacité mondiale de stockage de données et informations

Histoire scientifique

Croissance des Capacités de Stockage

Technologies de Stockage Émergentes

Histoire scientifique

Systèmes

Systèmes distribués (a,b)

  • Origines : Développement des concepts de systèmes distribués dans les années 1960.
  • Caractéristiques : Répartition des tâches sur des machines connectées en réseau.
  • Avancements Modernes : Utilisation dans les applications cloud et les réseaux distribués contemporains.
Calcul distribué
https://commons.wikimedia.org/wiki/File:Distributed-parallel.svg

Histoire scientifique

Systèmes

Systèmes parallèles (c)

  • Développement : Émergence des systèmes parallèles pour exécuter des tâches simultanées.
  • Traitement Parallèle : Utilisation de multiples processeurs pour accélérer le traitement.
  • Applications Actuelles : Intégration dans les supercalculateurs et les environnements informatiques intensifs.
Calcul distribué
https://commons.wikimedia.org/wiki/File:Distributed-parallel.svg

Histoire scientifique

Calcul distribué

Les projets suivants ont utilisé la puissance de traitement des ordinateurs personnels pour différents objectifs

Histoire scientifique

Tendances de recherche Google (novembre 2020): Big Data

Histoire scientifique

Tendances de recherche Google (novembre 2020): Big Data et Artificial Intelligence

Histoire scientifique

Tendances de recherche Google (novembre 2020): Big Data, Artificial Intelligence et Blockchain

Histoire scientifique

Le populisme de la base de données [Driscoll 2012]

Histoire scientifique

Big Data: 3V [Chen 2012, Kwon 2014, Gandomi 2015]

Histoire scientifique

Big Data: 6V [Gandomi 2015]

Histoire scientifique

Big Data [Kitchin 2016]

Références

Articles de recherche

Références

Crédits d'images