Traitement de données massives (2025-2026) : Plan du cours : John Samuel

Structure du cours

Répresentation, manipulation et prétraitement de données
- 1.1. Cycle de vie des données
- 1.1.1.1. Acquisition de données
- 1.1.1.2. ETL (Extraction Transformation, Loading)
- 1.1.1.3. Analyses de données
- 1.1.1.4. Visualisation de données
- 1.2. Acquisition et stockage des données
- 1.2.1. Formats de stockage de données: CSV
- 1.2.2 Types de stockage des données
- 1.2.3.1. Propriétés ACID¹
- 1.2.3.2 Types de bases de données
- 1.2.3.3. NoSQL
- 1.3. Extraction et intégration des données
- 1.3.1. Techniques d'extraction des données
- 1.3.2. Interfaces d'interrogation
- 1.3.3. Crawlers pour les pages web
- 1.3.4. Interface de programmation d'applications (API)
- 1.4. Prétraitement des données
- 1.4.1. Nettoyage de données
- 1.4.1.1. Erreurs de syntaxe
- 1.4.1.2. Erreurs sémantiques
- 1.4.1.3. Erreurs de couverture
- 1.4.2.1. Traitement des erreurs syntaxiques
- 1.4.2.2. Traitement des erreurs sémantiques
- 1.4.2.3. Traitement des erreurs de couverture
- 1.4.2.4. Administrateurs et traitement des erreurs
- 1.5. Transformation des données
- 1.5.1 Langages de programmation
- 1.6. ETL
- 1.6.1. ETL (Extraction Transformation and Loading)
- 1.6.2. ETL: d'une base de données à l'autre
- 1.6.2.1. Analyse des données multidimensionnelles
- 1.6.2.2. Modèle de données en étoile
- 1.6.2.3. Cubes ou hypercube de données
- 1.6.2.4. Modèle de données en flocon
- 1.7. Analyse des données
- 1.8. Visualisation des données
- 1.8.1 Les variables visuelles
- 1.8.2. Visualisation des données: Exemples
Traitement de données
- 2.1. Régularités
- 2.2. Data Mining
- 2.2.1. Classification
- 2.2.2. Partitionnement de données
- 2.2.3. Régression
- 2.2.4. Étiquetage des séquences
- 2.2.5. Règles d'association
- 2.2.6. Détection d'anomalies
- 2.2.7. Récapitulation
- 2.3. Algorithmes
- 2.3.1. Machine à vecteurs de support (SVM)
- 2.3.2. Gradient stochastique de descente
- 2.3.3. Méthode des plus proches voisins
- 2.3.4. Classification naïve bayésienne
- 2.3.5. Arbres de décision
- 2.3.6. Apprentissage ensembliste (Forêt d'arbres décisionnels)
- 2.4. Sélection de caractéristiques
Construction des modèles de traitement
- 3.1. Apprentissage machine
- 3.2. Apprentissage profond
- 3.3. Apprentissage par renforcement
- 3.4. Licences, Ethiques et la vie privé
Données ouvertes liées
- 4.1. Données ouvertes liées (Linked Open Data)
- 4.2. Wikidata
Analyse des données: Hadoop, Hive et Spark
- 5.1. Machines virtuelles
- 5.2. Conteneurs: Docker
- 5.3. Orchestration: Kubernetes
- 5.4. Analyse de données: Hadoop/HBase
- 5.5. Analyse de données: Hive
- 5.6. Analyse de données: Spark
Traitement automatique des langues naturelles (TAL)
- 6.1. Traitement automatique des langues naturelles
- 6.2. Racinisation
- 6.3. Étiquetage morpho-syntaxique
- 6.4. Lemmatisation
- 6.5. Morphologie
- 6.6. Word Embeddings
- 6.7. Word2Vec
- 6.8. Reconnaissance d'entités nommées (NER)
- 6.9. Analyse des sentiments

Crédits d'images

Wikimedia Commons

Plan du Cours

Structure du cours

Crédits d'images