Data Mining

John Samuel
CPE Lyon

Année: 2025-2026
Courriel: john.samuel@cpe.fr

Objectifs

Apprentissage machine
Apprentissage profond
Apprentissage par renforcement
Licences de données, éthique et vie privée

Neurones biologiques

Inspiration biologique : Les réseaux de neurones artificiels s'inspirent du cerveau humain.
Unité de base : Le neurone est l'unité fondamentale qui traite et transmet l'information via des signaux électrochimiques.
Composants clés : Il est composé de dendrites (entrées), d'un soma (traitement) et d'un axone (sortie), qui communiquent via des synapses.

https://en.wikipedia.org/wiki/File:Neuron3.png

Biological neuron structure — Neurone biologique¹

Introduction

Apprentissage à partir de données : Les algorithmes construisent un modèle mathématique basé sur des données d'échantillon, appelées "données d'entraînement".
Prise de décision : Le modèle est utilisé pour faire des prédictions ou prendre des décisions sans être explicitement programmé pour effectuer la tâche.
Amélioration continue : Les systèmes peuvent apprendre et s'améliorer automatiquement avec l'expérience.

Colored artificial neural network diagram — Réseaux de neurones artificiels

Réseau de neurones

Les réseaux de neurones sont couramment utilisés dans le domaine de l'apprentissage machine, en particulier dans des tâches telles que la classification, la régression, la reconnaissance d'images, le traitement du langage naturel, et bien d'autres. Un réseau de neurones artificiels est une collection d'unités interconnectées appelées neurones artificiels. Ces réseaux sont inspirés de la structure du cerveau biologique

Connexions : Chaque connexion entre les neurones, similaire aux synapses dans le cerveau biologique, peut transmettre un signal aux autres neurones.
Transmission de signal : Un neurone artificiel reçoit un signal, le traite à l'aide d'une fonction non linéaire, et peut ensuite transmettre un signal aux neurones qui lui sont connectés.
Fonction d'activation : La sortie de chaque neurone est calculée par une fonction non linéaire appliquée à la somme pondérée de ses entrées. Cette fonction d'activation introduit une non-linéarité dans le réseau, permettant de modéliser des relations complexes.

Réseau de neurones

Poids ajustables : Les neurones et les connexions ont généralement des poids qui sont ajustés au fur et à mesure de l'apprentissage. Ces poids déterminent l'importance relative des différentes entrées pour chaque neurone.
Ajustement des poids : Les poids peuvent être ajustés pour augmenter ou diminuer la force du signal au niveau d'une connexion, influençant ainsi la contribution de cette connexion aux calculs du réseau.
Seuil : Les neurones peuvent avoir un seuil, de sorte qu'un signal n'est envoyé que si la somme pondérée de ses entrées dépasse ce seuil. Cela permet au réseau de moduler sa sensibilité aux entrées.

Les couches

Les neurones sont organisés en couches. Il existe généralement trois types de couches dans un réseau de neurones :

Couche d'Entrée (Input Layer) : Cette couche reçoit les signaux initiaux ou les données en entrée. Chaque neurone dans cette couche représente une caractéristique ou une variable d'entrée.
Couches Cachées (Hidden Layers) : Ces couches effectuent des transformations non linéaires sur les entrées. Elles sont responsables de l'extraction et de la représentation des caractéristiques importantes des données. Un réseau de neurones peut avoir une ou plusieurs couches cachées.
Couche de Sortie (Output Layer) : Cette couche génère la sortie du réseau. Le nombre de neurones dans cette couche dépend de la nature de la tâche, par exemple, une classification binaire aurait un neurone de sortie, tandis qu'une classification multi-classes en aurait plusieurs.

Les couches

Transformations : Chaque couche, y compris la couche d'entrée, effectue des transformations sur les signaux qu'elle reçoit. Ces transformations sont déterminées par les poids des connexions entre les neurones.
Propagation des signaux : Les signaux passent de la première couche (l'entrée) à la dernière couche (la sortie) à travers les connexions pondérées entre les neurones. Ce processus est souvent appelé la propagation avant (forward propagation). Pendant l'apprentissage, la rétropropagation (backpropagation) est utilisée pour ajuster les poids afin de minimiser l'erreur de prédiction.
Architecture : La manière dont les couches sont organisées et connectées dans le réseau constitue son architecture. Les réseaux de neurones peuvent avoir des architectures diverses, y compris des réseaux profonds (avec de nombreuses couches cachées) ou des architectures plus simples.

L'entraînement

L'objectif global de l'entraînement est d'ajuster les poids du réseau de manière à ce qu'il puisse généraliser à de nouvelles données, produisant des résultats précis pour des exemples qu'il n'a pas vu pendant l'entraînement.

Données d'entraînement : Les réseaux neuronaux apprennent à partir d'exemples. Chaque exemple se compose d'une "entrée" (les caractéristiques) et d'un "résultat" connu (l'étiquette ou la sortie attendue).
Calcul de l'erreur : Lorsque le réseau produit une sortie pour une entrée donnée, l'erreur est calculée en comparant cette sortie à la sortie cible (le résultat connu). Il existe différentes mesures d'erreur, mais la somme des carrés des différences (Mean Squared Error, MSE) est couramment utilisée.

L'entraînement

Rétropropagation (Backpropagation) : Le réseau ajuste ses poids en utilisant la rétropropagation. Cette technique minimise l'erreur en modifiant les poids à partir de la couche de sortie jusqu'à la couche d'entrée. La règle de la chaîne du calcul différentiel est appliquée pour propager l'erreur à travers le réseau.
Descente de gradient : La règle d'apprentissage souvent utilisée pour ajuster les poids est la descente de gradient. Elle utilise le gradient de l'erreur par rapport aux poids pour mettre à jour les poids dans la direction qui minimise l'erreur.
Itérations : Le processus d'ajustement des poids en fonction de l'erreur est répété pour de nombreux exemples du jeu de données d'entraînement. Chaque itération est appelée une "époque". Plusieurs époques peuvent être nécessaires pour que le réseau converge vers un état où l'erreur est suffisamment basse.
Optimisation : Différentes techniques d'optimisation peuvent être utilisées pour améliorer la convergence du réseau, telles que l'ajustement adaptatif du taux d'apprentissage.

Composants des réseaux de neurones artificiels

Neurones : Les neurones artificiels sont les unités de base d'un réseau de neurones. Chaque neurone reçoit des signaux d'entrée, effectue un calcul sur ces signaux à l'aide d'une fonction d'activation, et produit une sortie. Les neurones sont organisés en couches, à savoir la couche d'entrée, les couches cachées, et la couche de sortie.
Connexions et Poids : Les connexions entre les neurones sont représentées par des poids. Chaque connexion a un poids associé, qui détermine l'importance relative de cette connexion dans le calcul du neurone de sortie. Pendant l'entraînement, ces poids sont ajustés pour minimiser l'erreur de prédiction du réseau.
Fonction de Propagation (Propagation avant) : La fonction de propagation, également appelée propagation avant, décrit le processus par lequel les signaux se propagent à travers le réseau depuis la couche d'entrée jusqu'à la couche de sortie. Chaque neurone effectue une transformation sur les signaux qu'il reçoit, et ces signaux modifiés sont transmis aux neurones de la couche suivante.

Composants des réseaux de neurones artificiels

Neurones

Chaque neurone artificiel a des entrées, qui peuvent être les valeurs caractéristiques d'un échantillon de données externe, et produit une seule sortie. Cette sortie peut être envoyée à plusieurs autres neurones, formant ainsi la structure interconnectée du réseau neuronal. La fonction d'activation joue un rôle crucial dans le calcul de la sortie d'un neurone. Le processus comprend les étapes suivantes :

Somme pondérée : Pour trouver la sortie du neurone, on prend la somme pondérée de tous les intrants (entrées). Chaque entrée est multipliée par le poids correspondant à la connexion.

Composants des réseaux de neurones artificiels

Neurones

Ajout d'un terme de biais : Un terme de biais est ajouté à la somme pondérée. Le terme de biais est un paramètre supplémentaire qui permet au modèle d'apprendre un décalage ou une translation.
Activation : La somme pondérée, parfois appelée activation, est ensuite passée par une fonction d'activation. Cette fonction est généralement non linéaire et introduit de la complexité dans le modèle, permettant au réseau de capturer des relations non linéaires dans les données

Composants des réseaux de neurones artificiels

Connexions et poids: Le réseau de neurones est constitué de connexions, où chaque connexion transmet la sortie d'un neurone comme entrée à un autre neurone. Chaque connexion possède un poids qui représente son importance relative dans la transmission du signal.

Un neurone donné peut avoir plusieurs connexions d'entrée, recevant des signaux de différents neurones, et plusieurs connexions de sortie, transmettant des signaux à d'autres neurones. Les poids associés à ces connexions permettent au réseau de moduler l'influence de chaque neurone sur les autres, ajustant ainsi la force et la direction des signaux transmis à travers le réseau.
Cette structure de connexion et de pondération est fondamentale dans le fonctionnement des réseaux de neurones, car elle permet au réseau d'apprendre des représentations complexes des données et d'ajuster ses paramètres pendant l'entraînement pour accomplir des tâches spécifiques.

Composants des réseaux de neurones artificiels

Fonction de propagation

Calcul de l'entrée d'un neurone : La fonction de propagation calcule l'entrée d'un neurone en prenant la somme pondérée des sorties de ses prédécesseurs, où chaque sortie est multipliée par le poids de la connexion correspondante. Cela peut être représenté mathématiquement comme suit :

\[ \text{Entrée du Neurone} = \sum_{i=1}^{n} (\text{Sortie du Prédécesseur}_i \times \text{Poids}_i) \] où \(n\) est le nombre de connexions d'entrée.

Composants des réseaux de neurones artificiels

Fonction de propagation

Ajout d'un terme de biais : Un terme de biais peut être ajouté au résultat de la propagation. Le terme de biais est un paramètre supplémentaire, souvent représenté par \(b\) dans les équations, qui permet au modèle d'apprendre un décalage ou une translation. Cela donne la forme finale de l'entrée du neurone :

\[ \text{Entrée du Neurone} = \sum_{i=1}^{n} (\text{Sortie du Prédécesseur}_i \times \text{Poids}_i) + \text{Biais} \]

Composants des réseaux de neurones artificiels

Fonction de propagation

Fonction d'Activation : Après avoir calculé l'entrée du neurone, celle-ci est passée à travers une fonction d'activation. Cette fonction introduit une non-linéarité dans le modèle, permettant au réseau de neurones de capturer des relations complexes et d'apprendre des modèles non linéaires. Certaines des fonctions d'activation couramment utilisées comprennent :

Sigmoïde : \( \sigma(x) = \frac{1}{1 + e^{-x}} \)
Tangente hyperbolique (tanh) : \( \text{tanh}(x) = \frac{e^{x} - e^{-x}}{e^{x} + e^{-x}} \)
ReLU (Rectified Linear Unit) : \( \text{ReLU}(x) = \max(0, x) \)
Softmax (pour la couche de sortie dans la classification) : \( \text{Softmax}(x)_i = \frac{e^{x_i}}{\sum_{j} e^{x_j}} \)

Perceptron

Le perceptron est un algorithme d'apprentissage supervisé utilisé pour la classification binaire. Il est conçu pour résoudre des problèmes où l'objectif est de déterminer si une entrée donnée appartient ou non à une classe particulière.

Le perceptron a été inventé par Frank Rosenblatt en 1958. L'idée était de créer un modèle simple de neurone artificiel inspiré du fonctionnement des neurones biologiques. Rosenblatt a formulé un algorithme d'apprentissage qui permet au perceptron d'ajuster ses poids en fonction des erreurs de classification, améliorant ainsi ses performances au fil du temps.

Perceptron

Fonctionnement : Le perceptron prend plusieurs entrées pondérées et les combine en une somme. Ensuite, cette somme est soumise à une fonction d'activation, généralement une fonction échelon (step function), qui produit la sortie binaire du perceptron.
Limitations : Le perceptron a des limitations, notamment sa capacité à résoudre des problèmes non linéaires et son incapacité à apprendre des modèles complexes. Cependant, il a jeté les bases pour le développement de réseaux de neurones plus avancés, en particulier les réseaux multicouches qui peuvent apprendre des représentations hiérarchiques.

Perceptron

Perceptron: Définition formelle

Soit \(y = f(z)\) la sortie du perceptron pour un vecteur d'entrée z
Soit \(N\) le nombre d'exemples d'entraînement
Soit X l'espace de saisie des caractéristiques
Soit \({(x_{1}, d_{1}),...,(x_{N}, d_{N})}\) be the N training examples, where
- \(x_i\) est le vecteur caractéristique de i^ème exemple d'entraînement.
- \(d_i\) est la valeur de sortie souhaitée
- \(x_{j,i}\) est la i^ème caractéristique de j^ème exemple d'entraînement.
- \(x_{j,0} = 1\)

Perceptron: Définition formelle

Les poids sont représentés de la manière suivante:
- \(w_i\) est la i^ème valeur du vecteur de poids.
- \(w_i(t)\) est la i^ème valeur du vecteur de poids à un moment donné t.

Perceptron : Étapes

Initialiser les poids et les seuils
Pour chaque exemple, \((x_j, d_j)\) dans l'ensemble d'entraînement
- Calculer la sortie actuelle : \[y_j(t)= f[w(t).x_j]\] \[= f[w_0(t)x_{j,0} + w_1(t)x_{j,1} + w_2(t)x_{j,2} + \dotsb + w_n(t)x_{j,n}]\]
- Calculer le poids: \[w_i(t + 1) = w_i(t) + r. (d_j-y_j(t))x_{j,i}\]
\(r\) est le taux d'apprentissage.

Perceptron : Étapes

Répétez l'étape 2 jusqu'à l'erreur d'itération \[\frac{1}{s} (Σ |d_j - y_j(t)|)\] est inférieur au seuil spécifié par l'utilisateur \(\gamma\), ou un nombre prédéterminé d'itérations ont été effectuées, où \(s\) est à nouveau la taille de l'ensemble de l'échantillon.

Fonction d'Échelon (Step Function)

Le perceptron utilise généralement une fonction d'activation simple, et la fonction d'échelon (step function) est fréquemment choisie pour cette tâche.

Définition

La fonction d'échelon attribue une sortie de 1 si la somme pondérée des entrées dépasse un certain seuil, et 0 sinon.

\( f(x) = \begin{cases} 1 & \text{si } x \geq \text{seuil} \\ 0 & \text{sinon} \end{cases} \)

Points clés

Perceptron : décision binaire nette (step) pour séparer des classes linéaires.
Limite : la fonction n'est pas dérivable → pas de rétropropagation classique.
Réseaux profonds : préfèrent des activations dérivables (sigmoïde, tanh, ReLU).

Fonction d'activation: fonction d'identité

Équation

\[f(x)=x\]

Dérivée

\[f'(x)=1\]

Points clés

Sortie : conserve la valeur réelle (pas de non-linéarité).
Usage : sortie de régression (prédire une valeur continue).

Identity activation function — Fonction d'identité

Fonction d'activation: pas binaire

Équation

\[f(x) = \begin{cases} 0 & \text{for } x < 0\\ 1 & \text{for } x \ge 0 \end{cases} \]

Dérivée

\[f'(x) = \begin{cases} 0 & \text{for } x \ne 0\\ ? & \text{for } x = 0\end{cases}\]

Points clés

Décision : classe 0/1 nette (seuil).
Limite : non dérivable → difficile à entraîner par gradient.

Binary step activation function — Pas binaire

Fonction d'activation: fonction sigmoïde

Équation

\[f(x)=\sigma(x)=\frac{1}{1+e^{-x}}\]

Dérivée

\[f'(x)=f(x)(1-f(x))\]

Points clés

Sortie : entre 0 et 1 → interprétable comme probabilité.
Usage : sortie binaire, mais saturations possibles aux extrêmes.

Sigmoid logistic curve — La fonction sigmoïde

Fonction d'activation: TanH

Équation

\[f(x)=\tanh(x)=\frac{(e^{x} - e^{-x})}{(e^{x} + e^{-x})}\]

Dérivée

\[f'(x)=1-f(x)^2\]

Points clés

Sortie : entre -1 et 1 → centrée, utile en couches cachées.
Limite : saturation possible pour |x| grand.

Fonction d'activation: Rectified linear unit: ReLU

Équation

\[f(x) = \begin{cases} 0 & \text{for } x \le 0\\ x & \text{for } x > 0\end{cases} = \max\{0,x\}= x \textbf{1}_{x>0}\]

Dérivée

\[f'(x) = \begin{cases} 0 & \text{for } x \le 0\\ 1 & \text{for } x > 0\end{cases}\]

Points clés

Avantage : gradients simples, apprentissage rapide.
Risque : neurones morts si x ≤ 0 trop souvent.

ReLU activation function — Unité linéaire rectifiée (ReLU)

Fonction d'activation: Gaussien

Équation

\[f(x)=e^{-x^2}\]

Dérivée

\[f'(x)=-2xe^{-x^2}\]

Points clés

Sortie : centrée sur 0, décroît vite → réponse locale.
Usage : réseaux à fonctions de base radiale (RBF).

Perceptron multiclasse

Perceptron peut être généralisé à la classification multiclasse.
Une fonction de représentation d'élément \(f( x , y )\) fait correspondre chaque paire d'entrée/sortie possible à un vecteur d'élément à valeur réelle en dimension finie.
le vecteur de caractéristique est multiplié par un vecteur de poids \(w\), mais le score obtenu est maintenant utilisé pour choisir parmi de nombreux résultats possibles : \[\hat y = \operatorname{argmax}_y f(x,y) \cdot w.\]
La réapprentissage se fait par itération sur les exemples, en prédisant un résultat pour chacun, en laissant les poids inchangés lorsque le résultat prédit correspond à l'objectif, et en les modifiant lorsqu'il ne correspond pas. La mise à jour devient : \[w_{t+1} = w_t + f(x, y) - f(x,\hat y)\].

Un réseau de neurones profond, également connu sous le nom de réseau de neurones profondément hiérarchisé ou réseau neuronal profond (DNN pour Deep Neural Network en anglais), est un type de réseau de neurones artificiels qui comprend plusieurs couches de traitement, généralement plus de deux. Ces réseaux sont appelés "profonds" en raison de leur architecture empilée de couches, permettant la création de représentations hiérarchiques complexes des données.

Architecture en couches : Les réseaux de neurones profonds sont composés de multiples couches, généralement divisées en trois types principaux :

Couche d'Entrée : Reçoit les données brutes ou caractéristiques en entrée.
Couches Cachées : Effectuent des transformations non linéaires et apprennent des représentations hiérarchiques des données.
Couche de Sortie : Produit la sortie du réseau, adaptée à la tâche spécifique (classification, régression, etc.).

Idée clé : plusieurs couches apprennent des représentations de plus en plus abstraites.
Non-linéarité : ReLU/tanh en couches cachées pour modéliser des relations complexes.
Apprentissage : rétropropagation + descente de gradient pour ajuster les poids.
Choix de sortie : sigmoïde (binaire), softmax (multiclasse), identité (régression).
Généralisation : régularisation (dropout, data augmentation) pour réduire l'overfitting.
Usage : vision, audio, langage, recommandation.
Coût : besoin de données et de calcul, parfois GPU.

Apprentissage profond

Définition : un réseau dit profond possède plusieurs couches cachées (souvent > 3) pour empiler des transformations successives.
Synonymes : DNN = réseau de neurones profond.
Idée clé : apprentissage de représentations hiérarchiques (bords → formes → concepts).
Signal : gradient propagé de la sortie vers les couches internes (rétropropagation).
Apports : performances élevées quand on a assez de données et d'architecture.
Limites : besoin de données, réglage d'hyperparamètres, risque d'overfitting.

Exemple: Tensorflow

Objectif : construire un petit réseau dense (exemple minimal).
Étape 1 : créer un modèle séquentiel.
Étape 2 : ajouter une couche ReLU avec 4 neurones.

# Importation des bibliothèques nécessaires de TensorFlow
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.optimizers import SGD

# Étape 1: Création d'un modèle séquentiel
model = Sequential()

# Étape 2: Ajout d'une couche dense avec une fonction d'activation ReLU
# La couche a 4 neurones, une fonction d'activation 'relu', et prend une entrée de forme (3,)
model.add(Dense(4, activation='relu', input_shape=(3,)))

Exemple: Tensorflow

Étape 3 : couche de sortie avec softmax (probabilités).
Étape 4 : compilation avec optimiseur et taux d'apprentissage.
Point clé : la fonction de perte doit correspondre à la tâche.

# Étape 3: Ajout d'une couche dense de sortie avec une fonction d'activation softmax
# La couche a 2 neurones pour une tâche de classification binaire, et softmax est utilisé
# pour obtenir des probabilités
model.add(Dense(units=2, activation='softmax'))

# Étape 4: Compilation du modèle
# Utilisation de la descente de gradient stochastique (SGD) comme optimiseur avec un taux d'apprentissage de 0.01
# La fonction de perte est 'mean_squared_error' pour un problème de régression
# Les performances du modèle seront mesurées en termes de 'accuracy' (précision)
sgd = SGD(lr=0.01)
model.compile(loss='mean_squared_error', optimizer=sgd, metrics=['accuracy'])

Étape 1 : modèle séquentiel = pile linéaire de couches.
Étape 2 : couche dense (4 neurones, ReLU), entrée de dimension 3.
Étape 3 : sortie softmax (2 neurones) → distribution de probabilités.
Étape 4 : compilation = optimiser + perte + métriques.
Attention : pour la classification, préférer cross‑entropy plutôt que MSE.
Astuce : normaliser les entrées aide la convergence.

Playground : visualiser l'effet des couches et des activations.
Paramètres : profondeur, taux d'apprentissage, régularisation.
Observation : frontière de décision évolue pendant l'entraînement.
Lecture : zones colorées = classes prédites.

Tensorflow Neural Network Playground — Source: https://playground.tensorflow.org/

Comparaison : tester plusieurs activations et régularisations.
Surapprentissage : visible si la validation diverge.
Stabilité : batch norm peut accélérer l'entraînement.

Tensorflow Neural Network Playground example 2 — Source: https://playground.tensorflow.org/

Composants des réseaux de neurones artificiels

Organisation

Principe : l'information circule de l'entrée vers la sortie via des couches cachées, avec des poids ajustés pendant l'apprentissage.

Organisation en plusieurs couches : Un réseau de neurones profond est structuré en plusieurs couches, généralement composées d'une couche d'entrée, de plusieurs couches cachées et d'une couche de sortie. Chaque couche est composée de neurones, également appelés nœuds ou unités.
Connexions entre les neurones : Les neurones d'une couche sont connectés aux neurones de la couche immédiatement précédente et de la couche immédiatement suivante. Chaque connexion est associée à un poids qui est ajusté pendant l'apprentissage.
Biais : terme ajouté pour déplacer l'activation (flexibilité du modèle).
Paramètres : poids + biais constituent ce qui est appris.

Composants des réseaux de neurones artificiels

Organisation

Couche d'entrée : La couche d'entrée est la première couche du réseau. Elle reçoit les données externes, souvent représentées par des caractéristiques d'un ensemble de données. Chaque neurone dans la couche d'entrée correspond à une caractéristique spécifique.
Couche de sortie : La couche de sortie est la dernière couche du réseau. Elle produit le résultat final du modèle en fonction de la tâche spécifique, telle que la classification d'une image, la prédiction d'une valeur, etc. Le nombre de neurones dans cette couche dépend du type de problème (par exemple, un neurone pour chaque classe dans une tâche de classification).
Couches cachées : Entre la couche d'entrée et la couche de sortie, il peut y avoir zéro ou plusieurs couches cachées. Ces couches sont responsables de l'extraction de caractéristiques complexes à partir des données d'entrée. Chaque neurone dans une couche cachée combine les informations des neurones de la couche précédente pour apprendre des représentations hiérarchiques.
Activation : transforme la somme pondérée en sortie non linéaire.
Dimension : la taille des couches contrôle la capacité du modèle.

Composants des réseaux de neurones artificiels

Organisation et connectivité

Connectivité entièrement connectée : chaque neurone d'une couche est relié à tous ceux de la couche suivante.
Avantage : grande capacité d'expression.
Coût : beaucoup de paramètres → risque d'overfitting.
Usage : souvent en fin de réseau (lecture finale).
Alternative : connexions locales (CNN) pour réduire les paramètres.

Réseaux de neurones convolutionnels

But : exploiter la structure spatiale des images.
Idée : filtres locaux + partage de poids.
Effet : moins de paramètres, meilleure généralisation.
Architecture : convolution → pooling → couches denses.

Deep learning convolutional neural network — Réseaux de neurones convolutionnels

Source: https://en.wikipedia.org/wiki/File:Deep_Learning.jpg

Réseaux de neurones convolutionnels

Objectif : apprendre des motifs visuels (bords, textures, formes).
Domaine : images, vidéos, signaux en grille.
Principe : filtres partagés + récepteurs locaux.
Usages : classification, détection, segmentation.
Exemples : reconnaissance d'objets, imagerie médicale.

Typical convolutional neural network architecture

Réseaux de neurones convolutionnels

Définition : réseau spécialisé pour données structurées en grille.
Partage de poids : mêmes filtres appliqués partout dans l'image.
Récepteurs locaux : chaque neurone voit une petite zone.
Avantage : moins de paramètres, meilleure généralisation.
Conséquence : invariance partielle aux translations.
Exemple : un filtre détecte un bord vertical.
Application : reconnaissance de chiffres manuscrits.

Exemple math.

\(y_{i,j}=\sum_{u,v}x_{i+u,j+v}\,w_{u,v}\)

Exemple commun : image 5×5, noyau 3×3.

Réseaux de neurones convolutionnels

Convolution : filtres linéaires pour extraire des motifs locaux.
Stride / padding : contrôlent la taille des cartes de caractéristiques.
Cartes de traits : plusieurs filtres → plusieurs canaux.
Intuition : chaque filtre détecte un motif spécifique.
Calcul : coût proportionnel au nombre de filtres et à la taille des cartes.
Exemple : padding=1 conserve la taille de l'image.
Application : détection de bords en vision.

Stride : \(H_{out}=\left\lfloor\frac{H+2P-K}{S}\right\rfloor+1\)

Exemple commun : H=5, K=3, P=1, S=1 ⇒ \(H_{out}=5\).

Réseaux de neurones convolutionnels

Couches convolutives : extraire des caractéristiques via plusieurs filtres.
Pooling : réduction spatiale (max/avg) et invariance locale.
Effet : moins de paramètres, moins de surapprentissage.
Variante : global average pooling.
Exemple : max‑pooling 2×2 → 1 valeur.

Max-pooling

\(y_{i,j}=\max\limits_{(u,v)\in\Omega}x_{i+u,j+v}\)

Exemple : fenêtre 2×2 → 1 valeur.

Réseaux de neurones convolutionnels: architecture

Hiérarchie : motifs simples → motifs complexes.
Structure : entrée → conv → pooling → couches denses → sortie.
Normalisation : stabilise l'entraînement.
Lecture finale : softmax / régression selon la tâche.
Profondeur : plus de couches = plus d'abstraction.
Exemple : conv(3×3) → pool → dense → softmax.
Application : tri automatique de photos.

Softmax

\(p_k=\frac{e^{z_k}}{\sum_j e^{z_j}}\)

Exemple commun : 3 classes → \(\sum p_k=1\).

Réseaux de neurones convolutionnels: architecture

Activation (ReLU) : non-linéarité essentielle à l'apprentissage.
Régularisation : dropout, data augmentation.
Normalisation : batch norm pour stabilité.
Convergence : taux d’apprentissage + init.
Exemple : dropout=0.5.

ReLU

\(f(x)=\max(0,x)\)

Exemple : x=-2 ⇒ 0, x=3 ⇒ 3.

Résumé : caractéristiques locales → représentations globales via couches successives.

Noyau (traitement d'image)

Noyau / filtre : petite matrice appliquée par convolution.
Taille : ex. 3×3, 5×5, 7×7 selon le contexte.
Canaux : un filtre par canal d'entrée (RGB, etc.).
Effets : contours, détails, mise en évidence de motifs.
Paramètres : poids du noyau appris pendant l'entraînement.
Exemple : noyau de Sobel pour les contours.
Application : rehaussement de détails en imagerie.

Sobel

\(\begin{bmatrix}-1&0&1\\-2&0&2\\-1&0&1\end{bmatrix}\)

Exemple commun : applique un gradient horizontal.

Noyau (traitement d'image)

Apprentissage automatique : les filtres sont appris, pas fixés à la main.
Optimisation : gradient + rétropropagation.
Visualisation : inspection des filtres pour interpréter le modèle.
Stabilité : régularisation pour éviter des filtres bruités.
Exemple : afficher les filtres de la 1ʳᵉ couche.
Application : interprétabilité en vision médicale.

Update

\(w \leftarrow w-\eta \nabla_w L\)

Exemple commun : \(\eta=0{,}01\).

Noyau (traitement d'image)

Hiérarchie : filtres simples → filtres complexes.
Pooling : réduction de dimension sans perdre l'essentiel.
Invariance : robustesse aux petites translations.
Résultat : représentations abstraites de l'image.
Généralisation : meilleure tolérance au bruit visuel.
Exemple : même objet détecté après un léger décalage.
Application : surveillance vidéo avec variations de caméra.

Invariance

\(x' = x+\epsilon \Rightarrow f(x')\approx f(x)\)

Exemple commun : \(\epsilon\) petit décalage.

Apprentissage par renforcement

Définition : apprentissage par interaction avec l'environnement.
Éléments : état, action, récompense, politique.
Exploration / exploitation : équilibre entre essayer et optimiser.
Signal : récompenses positives ou négatives.
Objectif : maximiser la récompense cumulée.
Exemples : jeux, robotique, optimisation de trafic.

Licences, Éthique et la vie privé

Droits d'utilisation : licences, conditions de réutilisation, attribution.
Confidentialité : minimisation, anonymisation, gestion des accès.
Éthique : biais, équité, transparence des modèles.
Conformité : RGPD, consentement, finalité des traitements.
Sécurité : protection des données, journalisation, audits.
Impact écologique : sobriété numérique, choix d'algorithmes, durée d'entraînement.
Empreinte carbone : mesurer, réduire, compenser quand nécessaire.

Licences ouvertes

Autorisation : que peut-on faire avec les données ?
Attribution : citer correctement la source.
Restrictions : usage commercial, partage à l'identique, dérivés.
Choix de licence : adapter au contexte et aux objectifs.

Creative Commons BY-NC-ND license — Exemples : Creative Commons (CC)

Creative Commons BY-NC-SA license — Exemples : Creative Commons (CC)

Spectre des licences CC

Plus ouvert : davantage d'usages et de réutilisation.
Plus restrictif : limitations (NC, ND), conditions plus fortes.
Attribution : BY est la base commune.
Choisir selon vos objectifs de diffusion et de contrôle.

Creative Commons license spectrum — Exemples : Creative Commons (CC)

Données ouvertes

Accès libre : données disponibles pour tous.
Réutilisation : adapter, analyser, redistribuer.
Transparence : favoriser la science ouverte et la confiance.
Exemples : Wikimedia, Open Data publics.

Données ouvertes

Linked Open Data (LOD)

Interopérabilité : données reliées par des URI.
Réutilisation : croiser des sources ouvertes.
Enrichissement : liens et contexte supplémentaires.
Écosystème : nuage LOD comme cartographie des jeux de données.

LOD Cloud diagram 2014 — Données ouvertes liées (Linked Open Data)

Données archivées

Bibliothèque numérique : Une organisation à but non lucratif qui vise à fournir un accès universel à toutes les connaissances.
Wayback Machine : Archive une grande partie du World Wide Web, permettant de consulter des versions historiques de sites web.
Collections numériques : Héberge une vaste collection de médias numériques, y compris des livres, des films, de la musique et des logiciels.

Data Mining

Data Mining

Objectifs

3.1. Apprentissage machine

Neurones biologiques

3.1. Apprentissage machine

Introduction

3.1. Apprentissage machine

Réseau de neurones

3.1. Apprentissage machine

Réseau de neurones

3.1. Apprentissage machine

Les couches

3.1. Apprentissage machine

Les couches

3.1. Apprentissage machine

L'entraînement

3.1. Apprentissage machine

L'entraînement

3.1. Apprentissage machine

Composants des réseaux de neurones artificiels

3.1. Apprentissage machine

Composants des réseaux de neurones artificiels

Neurones

3.1. Apprentissage machine

Composants des réseaux de neurones artificiels

Neurones

3.1. Apprentissage machine

Composants des réseaux de neurones artificiels

3.1. Apprentissage machine

Composants des réseaux de neurones artificiels

Fonction de propagation

3.1. Apprentissage machine

Composants des réseaux de neurones artificiels

Fonction de propagation

3.1. Apprentissage machine

Composants des réseaux de neurones artificiels

Fonction de propagation

3.1. Apprentissage machine

Perceptron

3.1. Apprentissage machine

Perceptron

3.1. Apprentissage machine

Perceptron

3.1. Apprentissage machine

Perceptron

3.1. Apprentissage machine

Perceptron: Définition formelle

3.1. Apprentissage machine

Perceptron: Définition formelle

3.1. Apprentissage machine

Perceptron : Étapes

3.1. Apprentissage machine

Perceptron : Étapes

3.1. Apprentissage machine

Fonction d'Échelon (Step Function)

Définition

Points clés

3.1. Apprentissage machine

Fonction d'activation: fonction d'identité

Équation

Dérivée

Points clés

3.1. Apprentissage machine

Fonction d'activation: pas binaire

Équation

Dérivée

Points clés

3.1. Apprentissage machine

Fonction d'activation: fonction sigmoïde

Équation

Dérivée

Points clés

3.1. Apprentissage machine

Fonction d'activation: TanH

Équation

Dérivée

Points clés

3.1. Apprentissage machine

Fonction d'activation: Rectified linear unit: ReLU