Data Mining

ETI 2025-2026

John Samuel
CPE Lyon

john.samuel@cpe.fr

Objectifs

Maîtriser les techniques de représentation, manipulation et prétraitement des données pour en optimiser l'utilisation.
Appliquer des méthodes avancées de traitement des données pour extraire des informations pertinentes et exploitables.
Construire des modèles de traitement par apprentissage machine afin d'analyser et de prédire des tendances à partir de données.
Intégrer les données ouvertes liées dans vos analyses pour enrichir vos résultats.

📖

8h

Cours

💻

16h

TP & Projet

60%

Examen

40%

Projet

🐧

Linux/Ubuntu

Jupyter

🐼

pandas

📈

matplotlib

🔬

scikit-learn

Options d'installation

Ubuntu natif

VirtualBox + Ubuntu

Cours

Sessions interactives
Questions toutes les 20-30 min
60% de la note

TP & Projet

3 TP + 1 Projet
Travail en binôme
Soumission en ligne
40% de la note

Devoir surveillé (DS): 60%

Examen: En-ligne sur E-campus
Durée: 2 heures. Total: 20 points
Documents: autorisés ; Types de documents autorisés: tous les documents autorisés
Calculatrices: non autorisées
Utilisation de l'internet: non autorisée
Dépôt supplémentaire: disponible pour les fichiers personnels

Vous recevrez un courrier détaillé avant l'examen

Travaux pratiques et projet

Le projet sera évalué.
La date limite de soumission est précisée sur e-campus.
Il est fortement conseillé de travailler en binôme pour favoriser la collaboration et l'efficacité.

Cours 1 2h

3 février

Cours 2 2h

4 février

Cours 3 2h

10 février

Cours 4 2h

11 février

TP 1 + Projet 3 et 4 février

TP 2 + Projet 10 et 11 février

TP 3 + Projet 26 février

Projet 4 mars

Travaux pratiques

Exploration approfondie de Jupyter, une plateforme interactive prisée pour l'analyse de données. Création de notebooks interactifs, intégration de code et de visualisations pour une analyse interactive des données.
Expérience pratique avec des jeux de données ouvertes, permettant une compréhension concrète des enjeux liés au traitement de données. Application de techniques avancées pour extraire des insights significatifs à partir de données hétérogènes.

Soumission: Travaux pratiques et Projet

TP	Points
TP 1	Non noté
TP 2	Non noté
TP 3	Non noté
Projet	20 points

Seul le projet compte pour l'évaluation (20 points), bien que la participation aux TP 1-3 reste vivement recommandée.

Travaux pratiques

Chaque TP comporte plusieurs exercices. Chaque exercice est accompagné d'une indication de niveau de difficulté:

★ ★ ★

Facile

★ ★ ★

Difficulté moyenne

★ ★ ★

Difficile

Liste de contrôle

Avant de déposer votre projet, vérifiez si vous respectez la liste de contrôle suivante:

Les noms complets (prénom et noms) de la binôme sont correctement inclus dans le fichier CONTRIBUTORS.md.

Le fichier README.md est rempli de manière exhaustive et conforme aux instructions fournies.

Votre code est accompagné de commentaires appropriés pour expliquer la logique et la fonctionnalité.

Votre code peut être exécuté sans générer d'erreurs, et dans la mesure du possible, sans générer d'avertissements.

Le rapport en format PDF (5 pages maximum, Arial 11pt)

Pas de fichiers Python (*.py)

github.com/johnsamuelwrites/DataMining

$ git clone https://github.com/johnsamuelwrites/DataMining
$ cd DataMining && ls

Pour les mises à jour:

$ git pull

Jupyter Notebooks fonctionne avec plusieurs langages de programmation (par exemple, Julia, Python, R).
Assurez-vous que le kernel sélectionné est Python 3+ (pas Python 2!).

Le code est divisé en cellules
Il est possible d'exécuter chaque cellule indépendamment.
Les résultats d'une cellule sont mémorisés et peuvent être réutilisés dans d'autres cellules, facilitant ainsi l'expérimentation et le débogage.

Scikit-learn — Machine Learning avec scikit-learn et jeux de données intégrés

Subplots — Graphiques multiples avec matplotlib

Wikidata Query — Requêtes SPARQL sur Wikidata

Data Mining

ETI 2025-2026

John SAMUEL

Data Mining

Objectifs

Composition du Module

Environnement de Programmation

Options d'installation

Organisation

Data Mining

Devoir surveillé (DS): 60%

Data Mining

Travaux pratiques et projet

Planning: Cours

Planning: Travaux Pratiques

Data Mining

Travaux pratiques

Data Mining

Soumission: Travaux pratiques et Projet

Data Mining

Travaux pratiques

Facile

Difficulté moyenne

Difficile

Data Mining

Liste de contrôle

Modèle de Code

github.com/johnsamuelwrites/DataMining

Pour les mises à jour:

Jupyter Notebooks

Jupyter Notebooks

Scikit-learn

Visualisation

Visualisation Avancée

Wikidata (Open Data)

Références

Sites Web

Couleurs

Images