Data Mining

ETI 2025-2026

John Samuel
CPE Lyon
john.samuel@cpe.fr
Creative Commons License

John SAMUEL

John Samuel
  • Enseignant-Chercheur, Conception Logicielle et Big Data, CPE Lyon
  • Intérêts et thèmes de recherche: Représentation de connaissances, le web sémantique, les services web, l'intégration de données, l'entrepôt de données, les systèmes distribués, système d'information géographique
  • Cours: Programmation en C, Algorithmes en C, Data Mining et Machine Learning, Intelligence Artificielle et Deep Learning, Systèmes d'exploitation et Programmation Concurrente, Langages Web
  • Thèse: Intégration des données issues de services web
  • HDR : Des regards sémantiques pour des villes intelligentes, durables et inclusives

Data Mining

Objectifs

Composition du Module

📖
8h
Cours
💻
16h
TP & Projet
60%
Examen
40%
Projet

Environnement de Programmation

🐧
Linux/Ubuntu
Jupyter Jupyter
🐼
pandas
📈
matplotlib
🔬
scikit-learn

Options d'installation

Ubuntu natif
VirtualBox + Ubuntu

Organisation

Cours
  • Sessions interactives
  • Questions toutes les 20-30 min
  • 60% de la note
TP & Projet
  • 3 TP + 1 Projet
  • Travail en binôme
  • Soumission en ligne
  • 40% de la note

Data Mining

Devoir surveillé (DS): 60%

Vous recevrez un courrier détaillé avant l'examen

Data Mining

Travaux pratiques et projet

Planning: Cours

Cours 1 4h
4 février
Cours 2 4h
6 février

Planning: Travaux Pratiques

TP 1 5 février
TP 2 + Projet 11 février
TP 3 + Projet 13 février
TP 4 + Projet 17 février

Data Mining

Travaux pratiques

Jupyter Open Data

Data Mining

Soumission: Travaux pratiques et Projet

TP Points
TP 1 Non noté
TP 2 Non noté
TP 3 Non noté
Projet 20 points

Data Mining

Travaux pratiques

Chaque TP comporte plusieurs exercices. Chaque exercice est accompagné d'une indication de niveau de difficulté:

Facile

Difficulté moyenne

Difficile

Data Mining

Liste de contrôle

Avant de déposer votre projet, vérifiez si vous respectez la liste de contrôle suivante:

Les noms complets (prénom et noms) de la binôme sont correctement inclus dans le fichier CONTRIBUTORS.md.
Le fichier README.md est rempli de manière exhaustive et conforme aux instructions fournies.
Vous avez respecté les noms de fichiers tels que spécifiés dans chaque exercice des travaux pratiques.
Votre code est accompagné de commentaires appropriés pour expliquer la logique et la fonctionnalité.
Votre code peut être exécuté sans générer d'erreurs, et dans la mesure du possible, sans générer d'avertissements.
Le rapport en format PDF (5 pages maximum, Arial 11pt)
Pas de fichiers Python (*.py)

Modèle de Code

github.com/johnsamuelwrites/DataMining

$ git clone https://github.com/johnsamuelwrites/DataMining
$ cd DataMining && ls

Pour les mises à jour:

$ git pull

Jupyter Notebooks

Jupyter Notebook
  • Jupyter Notebooks fonctionne avec plusieurs langages de programmation (par exemple, Julia, Python, R).
  • Assurez-vous que le kernel sélectionné est Python 3+ (pas Python 2!).

Jupyter Notebooks

Jupyter Program
  • Le code est divisé en cellules
  • Il est possible d'exécuter chaque cellule indépendamment.
  • Les résultats d'une cellule sont mémorisés et peuvent être réutilisés dans d'autres cellules, facilitant ainsi l'expérimentation et le débogage.

Scikit-learn

Scikit-learn
Machine Learning avec scikit-learn et jeux de données intégrés

Visualisation

Histograms
Histogrammes
Pie Chart
Diagrammes circulaires

Visualisation Avancée

Subplots
Graphiques multiples avec matplotlib

Wikidata (Open Data)

Wikidata Query
Requêtes SPARQL sur Wikidata

Références