Intelligence artificielle et Deep Learning

Apprentissage machine

John Samuel
CPE Lyon

Année: 2024-2025
Courriel: john.samuel@cpe.fr

Neurones biologiques

https://en.wikipedia.org/wiki/File:Neuron3.png

Introduction

Aspect	Neurone Biologique	Neurone Artificiel
Structure	Composé de dendrites, d’un soma (corps cellulaire), et d’un axone	Composé de poids (équivalents aux connexions), biais, et activation
Fonction	Transmet des impulsions électriques entre les neurones	Calcule une valeur de sortie en fonction de la somme pondérée des entrées
Entrée	Reçoit des signaux par les dendrites	Reçoit des valeurs pondérées (par les poids)
Poids des connexions	La force des synapses influence l’intensité du signal transmis	Les poids déterminent l’importance de chaque entrée

Aspect	Neurone Biologique	Neurone Artificiel
Activation	Un potentiel d’action est déclenché si le signal dépasse un seuil	Une fonction d’activation est appliquée pour déterminer la sortie
Sortie	Envoie un signal via l’axone vers d’autres neurones	Produit une sortie, souvent transmise aux neurones suivants dans le réseau
Apprentissage	Renforce les connexions synaptiques en fonction de l’expérience (plasticité synaptique)	Ajuste les poids via des algorithmes d’apprentissage (ex. rétropropagation)
Rôle	Participe à des processus cognitifs complexes	Contribue aux calculs et à la reconnaissance de motifs

Réseau de neurones

Les réseaux de neurones sont couramment utilisés dans le domaine de l'apprentissage machine, en particulier dans des tâches telles que la classification, la régression, la reconnaissance d'images, le traitement du langage naturel, et bien d'autres. Un réseau de neurones artificiels est une collection d'unités interconnectées appelées neurones artificiels. Ces réseaux sont inspirés de la structure du cerveau biologique

Connexions : Chaque connexion entre les neurones, similaire aux synapses dans le cerveau biologique, peut transmettre un signal aux autres neurones.
Transmission de signal : Un neurone artificiel reçoit un signal, le traite à l'aide d'une fonction non linéaire, et peut ensuite transmettre un signal aux neurones qui lui sont connectés.
Fonction d'activation : La sortie de chaque neurone est calculée par une fonction non linéaire appliquée à la somme pondérée de ses entrées. Cette fonction d'activation introduit une non-linéarité dans le réseau, permettant de modéliser des relations complexes.

Réseau de neurones

Poids ajustables : Les neurones et les connexions ont généralement des poids qui sont ajustés au fur et à mesure de l'apprentissage. Ces poids déterminent l'importance relative des différentes entrées pour chaque neurone.
Ajustement des poids : Les poids peuvent être ajustés pour augmenter ou diminuer la force du signal au niveau d'une connexion, influençant ainsi la contribution de cette connexion aux calculs du réseau.
Seuil : Les neurones peuvent avoir un seuil, de sorte qu'un signal n'est envoyé que si la somme pondérée de ses entrées dépasse ce seuil. Cela permet au réseau de moduler sa sensibilité aux entrées.

Perceptron

Le perceptron est un algorithme d'apprentissage supervisé utilisé pour la classification binaire. Il est conçu pour résoudre des problèmes où l'objectif est de déterminer si une entrée donnée appartient ou non à une classe particulière.

Le perceptron a été inventé par Frank Rosenblatt en 1958. L'idée était de créer un modèle simple de neurone artificiel inspiré du fonctionnement des neurones biologiques. Rosenblatt a formulé un algorithme d'apprentissage qui permet au perceptron d'ajuster ses poids en fonction des erreurs de classification, améliorant ainsi ses performances au fil du temps.
Fonctionnement : Le perceptron prend plusieurs entrées pondérées et les combine en une somme. Ensuite, cette somme est soumise à une fonction d'activation, généralement une fonction échelon (step function), qui produit la sortie binaire du perceptron.
Limitations : Le perceptron a des limitations, notamment sa capacité à résoudre des problèmes non linéaires et son incapacité à apprendre des modèles complexes. Cependant, il a jeté les bases pour le développement de réseaux de neurones plus avancés, en particulier les réseaux multicouches qui peuvent apprendre des représentations hiérarchiques.

Perceptron

Source: https://en.wikipedia.org/wiki/File:Perceptron_example.svg

Perceptron

Perceptron: Définition formelle

Soit \(y = f(z)\) la sortie du perceptron pour un vecteur d'entrée z
Soit \(N\) le nombre d'exemples d'entraînement
Soit X l'espace de saisie des caractéristiques
Soit \({(x_{1}, d_{1}),...,(x_{N}, d_{N})}\) be the N training examples, where
- \(x_i\) est le vecteur caractéristique de i^ème exemple d'entraînement.
- \(d_i\) est la valeur de sortie souhaitée
- \(x_{j,i}\) est la i^ème caractéristique de j^ème exemple d'entraînement.
- \(x_{j,0} = 1\)

Perceptron: Définition formelle

Les poids sont représentés de la manière suivante:
- \(w_i\) est la i^ème valeur du vecteur de poids.
- \(w_i(t)\) est la i^ème valeur du vecteur de poids à un moment donné t.

Perceptron : Étapes

Initialiser les poids et les seuils
Pour chaque exemple, \((x_j, d_j)\) dans l'ensemble d'entraînement
- Calculer la sortie actuelle : \[y_j(t)= f[w(t).x_j]\] \[= f[w_0(t)x_{j,0} + w_1(t)x_{j,1} + w_2(t)x_{j,2} + \dotsb + w_n(t)x_{j,n}]\]
- Calculer le poids: \[w_i(t + 1) = w_i(t) + r. (d_j-y_j(t))x_{j,i}\]
\(r\) est le taux d'apprentissage.

Perceptron : Étapes

Répétez l'étape 2 jusqu'à l'erreur d'itération \[\frac{1}{s} (Σ |d_j - y_j(t)|)\] est inférieur au seuil spécifié par l'utilisateur \(\gamma\), ou un nombre prédéterminé d'itérations ont été effectuées, où \(s\) est à nouveau la taille de l'ensemble de l'échantillon.

Fonction d'Échelon (Step Function)

Le perceptron utilise généralement une fonction d'activation simple, et la fonction d'échelon (step function) est fréquemment choisie pour cette tâche.

Définition

La fonction d'échelon attribue une sortie de 1 si la somme pondérée des entrées dépasse un certain seuil, et 0 sinon.

\( f(x) = \begin{cases} 1 & \text{si } x \geq \text{seuil} \\ 0 & \text{sinon} \end{cases} \)

Perceptron

import numpy as np

class Perceptron:
    def __init__(self, taux_apprentissage=0.01, n_iterations=1000):
        self.taux_apprentissage = taux_apprentissage
        self.n_iterations = n_iterations
        self.poids = None
        self.biais = None

Perceptron

class Perceptron:

    def ajuster(self, X, y):
        n_exemples, n_caracteristiques = X.shape
        self.poids = np.zeros(n_caracteristiques)
        self.biais = 0

        for _ in range(self.n_iterations):
            for i in range(n_exemples):
                ligne = X[i]
                y_calculé = np.dot(ligne, self.poids) + self.biais
                prediction = 1 if y_calculé >= 0 else 0
                erreur = y[i] - prediction
                # Mise à jour des poids et biais
                self.poids += self.taux_apprentissage * erreur * ligne
                self.biais += self.taux_apprentissage * erreur

Perceptron


class Perceptron:
    def predire(self, X):
        y_calculé = np.dot(X, self.poids) + self.biais
        return np.where(y_calculé >= 0, 1, 0)

Perceptron

# Données d'exemple
X = np.array([[1, 1], [2, 2], [1.5, 1.5], [0, 0], [0.5, 0.5], [1, 0]])
y = np.array([1, 1, 1, 0, 0, 0])

# Création et entraînement du perceptron
perceptron = Perceptron(taux_apprentissage=0.1, n_iterations=10)
perceptron.ajuster(X, y)

# Prédiction
print(perceptron.predire(np.array([[1, 1], [0, 0]])))  # Sortie : [1 0]

Un MLP est composé de plusieurs couches de neurones. Chaque neurone dans une couche est connecté à tous les neurones de la couche suivante (d’où le nom de “réseau de neurones entièrement connecté”). Un MLP possède typiquement

Une couche d’entrée : chaque neurone représente une caractéristique (feature) de l’entrée.
Une ou plusieurs couches cachées : ces couches permettent au modèle de capturer des représentations plus abstraites.
Une couche de sortie : elle donne la prédiction du réseau.

Les poids \( W \) et les biais \( b \) sont initialisés aléatoirement pour chaque connexion entre les neurones. Par exemple, pour une couche \( l \) de \( n_l \) neurones connectée à la couche \( l+1 \) de \( n_{l+1} \) neurones :

\( W^{(l)} \in \mathbb{R}^{n_l \times n_{l+1}} \) est la matrice des poids.
\( b^{(l)} \in \mathbb{R}^{1 \times n_{l+1}} \) est le vecteur des biais.

import numpy as np

# Initialisation de la structure du réseau
couches = [3, 5, 4, 1]  # exemple : 3 neurones d'entrée, 2 couches cachées de 5 et 4 neurones, et 1 neurone de sortie

# Initialisation des poids et biais aléatoires
poids = [np.random.rand(couches[i], couches[i + 1]) for i in range(len(couches) - 1)]
biais = [np.random.rand(1, couches[i + 1]) for i in range(len(couches) - 1)]

Propagation Avant

La propagation avant consiste à faire passer les données d’entrée à travers chaque couche du réseau. À chaque neurone, on effectue une combinaison linéaire de ses entrées (poids * entrée + biais) suivie d’une fonction d’activation.

Les fonctions d’activation courantes sont : -

Sigmoïde pour la sortie entre 0 et 1,
ReLU (Rectified Linear Unit) pour introduire de la non-linéarité.

Propagation Avant

La propagation avant est le processus par lequel les données d’entrée traversent les couches du réseau. À chaque neurone de la couche \( l \), on calcule une activation basée sur une combinaison linéaire des activations de la couche précédente, suivie d’une fonction d’activation.

Soit \( a^{(l)} \) l’activation de la couche \( l \) :

Combinaison Linéaire : \[ z^{(l+1)} = a^{(l)} W^{(l)} + b^{(l)} \] où \( z^{(l+1)} \) est l’entrée nette pour chaque neurone de la couche \( l+1 \).

Propagation Avant

Application de la Fonction d’Activation :
- Par exemple, pour la fonction d’activation ReLU utilisée dans les couches cachées : \[ a^{(l+1)} = \text{ReLU}(z^{(l+1)}) = \max(0, z^{(l+1)}) \]
- Pour la couche de sortie, dans un problème de classification binaire, on utilise souvent la fonction sigmoïde : \[ a^{(L)} = \sigma(z^{(L)}) = \frac{1}{1 + e^{-z^{(L)}}} \] où \( L \) représente la dernière couche.

# Fonction d'activation Sigmoïde
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

# Fonction d'activation ReLU
def relu(x):
    return np.maximum(0, x)

# Propagation avant à travers le réseau
def propagation_avant(entree, poids, biais):
    activation = entree
    activations = [activation]  # stocke les activations de chaque couche pour le backprop

    # Propagation à travers chaque couche cachée
    for i in range(len(poids) - 1):
        z = np.dot(activation, poids[i]) + biais[i]
        activation = relu(z)  # on utilise ReLU pour les couches cachées
        activations.append(activation)

    # Couche de sortie (par ex., sigmoid pour une tâche de classification binaire)
    z = np.dot(activation, poids[-1]) + biais[-1]
    activation = sigmoid(z)
    activations.append(activation)

    return activations

Calcul de l’erreur

Une fois les prédictions faites, il est essentiel de calculer l’erreur. Dans le cas de la classification binaire, la log-loss ou l’entropie croisée binaire est couramment utilisée. Cette étape permet de quantifier l’écart entre les prédictions et les vraies étiquettes.

Calcul de l’erreur

Pour évaluer la qualité des prédictions, on utilise une fonction de perte. Dans le cas d’une tâche de classification binaire, la log-loss (ou entropie croisée binaire) est souvent utilisée.

Si \( y \) est la véritable étiquette et \( \hat{y} \) la prédiction, la perte pour un exemple est donnée par : \[ \text{Perte} = - \left( y \cdot \log(\hat{y}) + (1 - y) \cdot \log(1 - \hat{y}) \right) \]

Pour un ensemble de \( m \) exemples, la perte totale devient : \[ \text{J}(W, b) = -\frac{1}{m} \sum_{i=1}^{m} \left( y^{(i)} \cdot \log(\hat{y}^{(i)}) + (1 - y^{(i)}) \cdot \log(1 - \hat{y}^{(i)}) \right) \]

# Fonction de perte (Binary Cross-Entropy)
def calcul_perte(y_pred, y_vrai):
    m = y_vrai.shape[0]
    perte = -np.sum(y_vrai * np.log(y_pred) + (1 - y_vrai) * np.log(1 - y_pred)) / m
    return perte

Rétropropagation

La rétropropagation ajuste les poids et les biais en fonction de l’erreur obtenue. Elle utilise le gradient de la perte pour chaque paramètre du réseau, appliqué depuis la couche de sortie jusqu’à la couche d’entrée.

Calcul du gradient pour la couche de sortie.
Propager les gradients en arrière à travers chaque couche cachée en utilisant la dérivée des fonctions d’activation.

La rétropropagation est utilisée pour calculer le gradient de la perte par rapport aux paramètres \( W \) et \( b \), et ajuster ces paramètres pour réduire l’erreur.

Rétropropagation: Calcul du Gradient pour la Couche de Sortie

Si \( L \) est la couche de sortie, l’erreur (ou delta) pour cette couche est : \[ \delta^{(L)} = a^{(L)} - y \]
Le gradient de la perte par rapport aux poids de cette couche est alors : \[ \frac{\partial J}{\partial W^{(L-1)}} = (a^{(L-1)})^T \delta^{(L)} \]
Et le gradient de la perte par rapport aux biais : \[ \frac{\partial J}{\partial b^{(L-1)}} = \delta^{(L)} \]

Rétropropagation: Calcul des Gradients pour les Couches Cachées

Pour une couche \( l \), le delta se propage à partir de la couche suivante : \[ \delta^{(l)} = (\delta^{(l+1)} W^{(l)}) \cdot f'(z^{(l)}) \]
Le gradient par rapport aux poids de cette couche est : \[ \frac{\partial J}{\partial W^{(l)}} = (a^{(l)})^T \delta^{(l+1)} \]
Le gradient par rapport aux biais est : \[ \frac{\partial J}{\partial b^{(l)}} = \delta^{(l+1)} \]

Rétropropagation: Mise à Jour des Poids et des Biais

Les poids et les biais sont ajustés à chaque itération pour minimiser la perte en utilisant le **gradient descend** avec un taux d’apprentissage \( \alpha \) :

\[ W^{(l)} := W^{(l)} - \alpha \frac{\partial J}{\partial W^{(l)}} \]

\[ b^{(l)} := b^{(l)} - \alpha \frac{\partial J}{\partial b^{(l)}} \]

Rétropropagation

# Fonction de dérivée pour Sigmoïde et ReLU
def derivee_sigmoid(x):
    return x * (1 - x)

def derivee_relu(x):
    return np.where(x > 0, 1, 0)

Rétropropagation

# Rétropropagation
def retropropagation(activations, poids, biais, y_vrai, taux_apprentissage=0.01):
    # Étape 1 : Calculer le gradient de la perte pour la couche de sortie
    erreur = activations[-1] - y_vrai
    deltas = [erreur * derivee_sigmoid(activations[-1])]

    # Étape 2 : Calculer les gradients pour chaque couche cachée
    for i in reversed(range(len(poids) - 1)):
        delta = np.dot(deltas[-1], poids[i + 1].T) * derivee_relu(activations[i + 1])
        deltas.append(delta)

Rétropropagation

    # Inverser les deltas pour qu'ils correspondent à chaque couche du réseau
    deltas = deltas[::-1]

    # Mise à jour des poids et biais
    for i in range(len(poids)):
        poids[i] -= taux_apprentissage * np.dot(activations[i].T, deltas[i])
        biais[i] -= taux_apprentissage * np.sum(deltas[i], axis=0, keepdims=True)

Entraînement

L’entraînement du réseau consiste à itérer sur les étapes de propagation avant, de calcul de l’erreur, et de rétropropagation plusieurs fois (époques) pour ajuster les paramètres et minimiser l’erreur.

Entraînement

def entrainer_mlp(X, y, couches, epochs=1000, taux_apprentissage=0.01):
    # Initialisation des poids et biais
    poids = [np.random.rand(couches[i], couches[i + 1]) for i in range(len(couches) - 1)]
    biais = [np.random.rand(1, couches[i + 1]) for i in range(len(couches) - 1)]

    # Boucle d'entraînement
    for epoch in range(epochs):
        # Propagation avant
        activations = propagation_avant(X, poids, biais)
        # Calcul de la perte
        perte = calcul_perte(activations[-1], y)
        # Rétropropagation
        retropropagation(activations, poids, biais, y, taux_apprentissage)
        # Afficher la perte à intervalles réguliers
        if epoch % 100 == 0:
            print(f"Epoch {epoch}, Perte: {perte:.4f}")
    return poids, biais

Prédiction

Après l’entraînement, le modèle peut être utilisé pour faire des prédictions sur de nouvelles données en effectuant simplement une propagation avant.

Pour effectuer une prédiction après l'entraînement, on utilise simplement la propagation avant. La sortie de la couche finale \( a^{(L)} \) est interprétée en fonction de la tâche :

Pour la classification binaire, on utilise une règle de décision, par exemple : \[ \hat{y} = \begin{cases} 1 & \text{si } a^{(L)} \geq 0.5 \\ 0 & \text{sinon} \end{cases} \]

Prédiction

# Fonction de prédiction
def predire(X, poids, biais):
    activations = propagation_avant(X, poids, biais)
    return activations[-1]

Résumé des étapes

Initialisation : Créer et initialiser les poids et biais.
Propagation Avant : Calculer les activations de chaque couche.
Calcul de l’Erreur : Mesurer la différence entre la sortie prédite et la sortie attendue.
Rétropropagation : Calculer les gradients et mettre à jour les poids et biais.
Entraînement : Répéter les étapes précédentes pour minimiser l’erreur.
Prédiction : Utiliser le réseau entraîné pour prédire les sorties de nouvelles entrées.

Les couches

Les neurones sont organisés en couches. Il existe généralement trois types de couches dans un réseau de neurones :

Couche d'Entrée (Input Layer) : Cette couche reçoit les signaux initiaux ou les données en entrée. Chaque neurone dans cette couche représente une caractéristique ou une variable d'entrée.
Couches Cachées (Hidden Layers) : Ces couches effectuent des transformations non linéaires sur les entrées. Elles sont responsables de l'extraction et de la représentation des caractéristiques importantes des données. Un réseau de neurones peut avoir une ou plusieurs couches cachées.
Couche de Sortie (Output Layer) : Cette couche génère la sortie du réseau. Le nombre de neurones dans cette couche dépend de la nature de la tâche, par exemple, une classification binaire aurait un neurone de sortie, tandis qu'une classification multi-classes en aurait plusieurs.

Les couches

Transformations : Chaque couche, y compris la couche d'entrée, effectue des transformations sur les signaux qu'elle reçoit. Ces transformations sont déterminées par les poids des connexions entre les neurones.
Propagation des signaux : Les signaux passent de la première couche (l'entrée) à la dernière couche (la sortie) à travers les connexions pondérées entre les neurones. Ce processus est souvent appelé la propagation avant (forward propagation). Pendant l'apprentissage, la rétropropagation (backpropagation) est utilisée pour ajuster les poids afin de minimiser l'erreur de prédiction.
Architecture : La manière dont les couches sont organisées et connectées dans le réseau constitue son architecture. Les réseaux de neurones peuvent avoir des architectures diverses, y compris des réseaux profonds (avec de nombreuses couches cachées) ou des architectures plus simples.

L'entraînement

L'objectif global de l'entraînement est d'ajuster les poids du réseau de manière à ce qu'il puisse généraliser à de nouvelles données, produisant des résultats précis pour des exemples qu'il n'a pas vu pendant l'entraînement.

Données d'entraînement : Les réseaux neuronaux apprennent à partir d'exemples. Chaque exemple se compose d'une "entrée" (les caractéristiques) et d'un "résultat" connu (l'étiquette ou la sortie attendue).
Calcul de l'erreur : Lorsque le réseau produit une sortie pour une entrée donnée, l'erreur est calculée en comparant cette sortie à la sortie cible (le résultat connu). Il existe différentes mesures d'erreur, mais la somme des carrés des différences (Mean Squared Error, MSE) est couramment utilisée.
Rétropropagation (Backpropagation) : Le réseau ajuste ses poids en utilisant la rétropropagation. Cette technique minimise l'erreur en modifiant les poids à partir de la couche de sortie jusqu'à la couche d'entrée. La règle de la chaîne du calcul différentiel est appliquée pour propager l'erreur à travers le réseau.

L'entraînement

Descente de gradient : La règle d'apprentissage souvent utilisée pour ajuster les poids est la descente de gradient. Elle utilise le gradient de l'erreur par rapport aux poids pour mettre à jour les poids dans la direction qui minimise l'erreur.
Itérations : Le processus d'ajustement des poids en fonction de l'erreur est répété pour de nombreux exemples du jeu de données d'entraînement. Chaque itération est appelée une "époque". Plusieurs époques peuvent être nécessaires pour que le réseau converge vers un état où l'erreur est suffisamment basse.
Optimisation : Différentes techniques d'optimisation peuvent être utilisées pour améliorer la convergence du réseau, telles que l'ajustement adaptatif du taux d'apprentissage.

Composants des réseaux de neurones artificiels

Neurones : Les neurones artificiels sont les unités de base d'un réseau de neurones. Chaque neurone reçoit des signaux d'entrée, effectue un calcul sur ces signaux à l'aide d'une fonction d'activation, et produit une sortie. Les neurones sont organisés en couches, à savoir la couche d'entrée, les couches cachées, et la couche de sortie.
Connexions et Poids : Les connexions entre les neurones sont représentées par des poids. Chaque connexion a un poids associé, qui détermine l'importance relative de cette connexion dans le calcul du neurone de sortie. Pendant l'entraînement, ces poids sont ajustés pour minimiser l'erreur de prédiction du réseau.
Fonction de Propagation (Propagation avant) : La fonction de propagation, également appelée propagation avant, décrit le processus par lequel les signaux se propagent à travers le réseau depuis la couche d'entrée jusqu'à la couche de sortie. Chaque neurone effectue une transformation sur les signaux qu'il reçoit, et ces signaux modifiés sont transmis aux neurones de la couche suivante.

Composants des réseaux de neurones artificiels

Neurones

Chaque neurone artificiel a des entrées, qui peuvent être les valeurs caractéristiques d'un échantillon de données externe, et produit une seule sortie. Cette sortie peut être envoyée à plusieurs autres neurones, formant ainsi la structure interconnectée du réseau neuronal. La fonction d'activation joue un rôle crucial dans le calcul de la sortie d'un neurone. Le processus comprend les étapes suivantes :

Somme pondérée : Pour trouver la sortie du neurone, on prend la somme pondérée de tous les intrants (entrées). Chaque entrée est multipliée par le poids correspondant à la connexion.
Ajout d'un terme de biais : Un terme de biais est ajouté à la somme pondérée. Le terme de biais est un paramètre supplémentaire qui permet au modèle d'apprendre un décalage ou une translation.
Activation : La somme pondérée, parfois appelée activation, est ensuite passée par une fonction d'activation. Cette fonction est généralement non linéaire et introduit de la complexité dans le modèle, permettant au réseau de capturer des relations non linéaires dans les données

Composants des réseaux de neurones artificiels

Connexions et poids

Le réseau de neurones est constitué de connexions, où chaque connexion transmet la sortie d'un neurone comme entrée à un autre neurone. Chaque connexion possède un poids qui représente son importance relative dans la transmission du signal.

Un neurone donné peut avoir plusieurs connexions d'entrée, recevant des signaux de différents neurones, et plusieurs connexions de sortie, transmettant des signaux à d'autres neurones. Les poids associés à ces connexions permettent au réseau de moduler l'influence de chaque neurone sur les autres, ajustant ainsi la force et la direction des signaux transmis à travers le réseau.
Cette structure de connexion et de pondération est fondamentale dans le fonctionnement des réseaux de neurones, car elle permet au réseau d'apprendre des représentations complexes des données et d'ajuster ses paramètres pendant l'entraînement pour accomplir des tâches spécifiques.

Perceptron multiclasse

Perceptron peut être généralisé à la classification multiclasse.
Une fonction de représentation d'élément \(f( x , y )\) fait correspondre chaque paire d'entrée/sortie possible à un vecteur d'élément à valeur réelle en dimension finie.
le vecteur de caractéristique est multiplié par un vecteur de poids \(w\), mais le score obtenu est maintenant utilisé pour choisir parmi de nombreux résultats possibles : \[\hat y = \operatorname{argmax}_y f(x,y) \cdot w.\]
La réapprentissage se fait par itération sur les exemples, en prédisant un résultat pour chacun, en laissant les poids inchangés lorsque le résultat prédit correspond à l'objectif, et en les modifiant lorsqu'il ne correspond pas. La mise à jour devient : \[w_{t+1} = w_t + f(x, y) - f(x,\hat y)\].

Articles de recherche

[Aly 2005] Aly, Mohamed. Survey on Multiclass Classification Methods. 2005.
[Jaakkola 2019] Jaakkola, H., et al. “Artificial Intelligence Yesterday, Today and Tomorrow.” 2019 42nd International Convention on Information and Communication Technology, Electronics and Microelectronics (MIPRO), 2019, pp. 860–67. IEEE Xplore
[Pan 2016] Pan, Yunhe, “Heading toward Artificial Intelligence 2.0.” Engineering, vol. 2, no. 4, Dec. 2016, pp. 409–13. www.sciencedirect.com,

Web

Google acquiert DNNresearch, spécialisé dans les réseaux de neurones profonds: https://www.lemondeinformatique.fr/actualites/lire-google-acquiert-dnnresearch-specialise-dans-les-reseaux-de-neurones-profonds-52829.html
Pourquoi Microsoft rachète Linkedin: https://www.lemondeinformatique.fr/actualites/lire-pourquoi-microsoft-rachete-linkedin-65136.html
Scikit-learn: http://scikit-learn.org/stable/
Perceptron: https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Perceptron.html

Wikipédia

Perceptron: https://en.wikipedia.org/wiki/Perceptron
Multiclass Classification: https://en.wikipedia.org/wiki/Multiclass_classification
Multilayer Perceptron: https://en.wikipedia.org/wiki/Multilayer_perceptron
Feedforward Neural Network: https://en.wikipedia.org/wiki/Feedforward_neural_network
Recurrent Neural Network: https://en.wikipedia.org/wiki/Recurrent_neural_network
Long Short-Term Memory: https://en.wikipedia.org/wiki/Long_short-term_memory
Activation Function: https://en.wikipedia.org/wiki/Activation_function
Logique et Raisonnement Mathématique: https://fr.wikipedia.org/wiki/Logique_et_raisonnement_math%C3%A9matique
Représentation des Connaissances: https://fr.wikipedia.org/wiki/Repr%C3%A9sentation_des_connaissances

Wikipédia

Agent Intelligent: https://fr.wikipedia.org/wiki/Agent_intelligent
Calcul des Propositions: https://fr.wikipedia.org/wiki/Calcul_des_propositions
Calcul des Prédicats: https://fr.wikipedia.org/wiki/Calcul_des_pr%C3%A9dicats
Logique Modale: https://fr.wikipedia.org/wiki/Logique_modale
Raisonnement Automatisé: https://fr.wikipedia.org/wiki/Raisonnement_automatis%C3%A9
Connaissance: https://fr.wikipedia.org/wiki/Connaissance
Gestion des connaissances: https://fr.wikipedia.org/wiki/Gestion_des_connaissances

Couleurs

Color Tool - Material Design

Images

Wikimedia Commons

Intelligence artificielle et Deep Learning

Apprentissage machine

2.1. Neurones biologiques

Neurones biologiques

2.1. Neurones biologiques

Introduction

2.1. Neurones biologiques

2.1. Neurones biologiques

2.1. Neurones biologiques

Réseau de neurones

2.1. Neurones biologiques

Réseau de neurones

2.2. Perceptron

Perceptron

2.2. Perceptron

Perceptron

2.2. Perceptron

Perceptron

2.2. Perceptron

Perceptron: Définition formelle

2.2. Perceptron

Perceptron: Définition formelle

2.2. Perceptron

Perceptron : Étapes

2.2. Perceptron

Perceptron : Étapes

2.2. Perceptron

Fonction d'Échelon (Step Function)

Définition

2.2. Perceptron

Perceptron

2.2. Perceptron

Perceptron

2.2. Perceptron

Perceptron

2.2. Perceptron

Perceptron

2.3. Perceptron multicouches

2.3. Perceptron multicouches

2.3. Perceptron multicouches

2.3. Perceptron multicouches

Propagation Avant

2.3. Perceptron multicouches

Propagation Avant

2.3. Perceptron multicouches

Propagation Avant

2.3. Perceptron multicouches

2.3. Perceptron multicouches

2.3. Perceptron multicouches

Calcul de l’erreur

2.3. Perceptron multicouches

Calcul de l’erreur

2.3. Perceptron multicouches

2.3. Perceptron multicouches

Rétropropagation

2.3. Perceptron multicouches

Rétropropagation: Calcul du Gradient pour la Couche de Sortie

2.3. Perceptron multicouches

Rétropropagation: Calcul des Gradients pour les Couches Cachées

2.3. Perceptron multicouches

Rétropropagation: Mise à Jour des Poids et des Biais

2.3. Perceptron multicouches

Rétropropagation

2.3. Perceptron multicouches

Rétropropagation

2.3. Perceptron multicouches

Rétropropagation

2.3. Perceptron multicouches

Entraînement

2.3. Perceptron multicouches

Entraînement

2.3. Perceptron multicouches

Prédiction

2.3. Perceptron multicouches

Prédiction

2.3. Perceptron multicouches

Résumé des étapes

2.4. Réseaux de neurones artificiels

Les couches

2.4. Réseaux de neurones artificiels