John Samuel
Accueil
Enseignement
Traitement de donn?es massives
À propos
Plan du Cours
Traitement de donn?es massives
Année: 2025-2026
Structure du cours
Répresentation, manipulation et prétraitement de données
1.1. Cycle de vie des données
1.1.1.1. Acquisition de données
1.1.1.2. ETL (Extraction Transformation, Loading)
1.1.1.3. Analyses de données
1.1.1.4. Visualisation de données
1.2. Acquisition et stockage des données
1.2.1. Formats de stockage de données: CSV
1.2.2 Types de stockage des données
1.2.3.1. Propriétés ACID
1
1.2.3.2 Types de bases de données
1.2.3.3. NoSQL
1.3. Extraction et intégration des données
1.3.1. Techniques d'extraction des données
1.3.2. Interfaces d'interrogation
1.3.3. Crawlers pour les pages web
1.3.4. Interface de programmation d'applications (API)
1.4. Prétraitement des données
1.4.1. Nettoyage de données
1.4.1.1. Erreurs de syntaxe
1.4.1.2. Erreurs sémantiques
1.4.1.3. Erreurs de couverture
1.4.2.1. Traitement des erreurs syntaxiques
1.4.2.2. Traitement des erreurs sémantiques
1.4.2.3. Traitement des erreurs de couverture
1.4.2.4. Administrateurs et traitement des erreurs
1.5. Transformation des données
1.5.1 Langages de programmation
1.6. ETL
1.6.1. ETL (Extraction Transformation and Loading)
1.6.2. ETL: d'une base de données à l'autre
1.6.2.1. Analyse des données multidimensionnelles
1.6.2.2. Modèle de données en étoile
1.6.2.3. Cubes ou hypercube de données
1.6.2.4. Modèle de données en flocon
1.7. Analyse des données
1.8. Visualisation des données
1.8.1 Les variables visuelles
1.8.2. Visualisation des données: Exemples
Traitement de données
2.1. Régularités
2.2. Data Mining
2.2.1. Classification
2.2.2. Partitionnement de données
2.2.3. Régression
2.2.4. Étiquetage des séquences
2.2.5. Règles d'association
2.2.6. Détection d'anomalies
2.2.7. Récapitulation
2.3. Algorithmes
2.3.1. Machine à vecteurs de support (SVM)
2.3.2. Gradient stochastique de descente
2.3.3. Méthode des plus proches voisins
2.3.4. Classification naïve bayésienne
2.3.5. Arbres de décision
2.3.6. Apprentissage ensembliste (Forêt d'arbres décisionnels)
2.4. Sélection de caractéristiques
Construction des modèles de traitement
3.1. Apprentissage machine
3.2. Apprentissage profond
3.3. Apprentissage par renforcement
3.4. Licences, Ethiques et la vie privé
Données ouvertes liées
4.1. Données ouvertes liées (Linked Open Data)
4.2. Wikidata
Analyse des données: Hadoop, Hive et Spark
5.1. Machines virtuelles
5.2. Conteneurs: Docker
5.3. Orchestration: Kubernetes
5.4. Analyse de données: Hadoop/HBase
5.5. Analyse de données: Hive
5.6. Analyse de données: Spark
Traitement automatique des langues naturelles (TAL)
6.1. Traitement automatique des langues naturelles
6.2. Racinisation
6.3. Étiquetage morpho-syntaxique
6.4. Lemmatisation
6.5. Morphologie
6.6. Word Embeddings
6.7. Word2Vec
6.8. Reconnaissance d'entités nommées (NER)
6.9. Analyse des sentiments
Crédits d'images
Wikimedia Commons