🧠 Apprentissage perceptron multi-couche (MLP) : par lot vs descente de gradient stochastique

Comprendre la gestion des erreurs pendant l'entraînement

Choisissez le mode d'apprentissage :

Prêt à démarrer

Sélectionnez un mode d'apprentissage et cliquez sur "Entraîner le réseau"

1.0x
Mode d'apprentissage
SGD
Phase actuelle
Prêt
Perte moyenne
0.0000
Époques complétées
0
Mises à jour des poids
0
Couche d'entrée
Couche cachée
Couche de sortie
Signal avant
Gradient arrière

📚 Comprendre la gestion des erreurs en une époque :

Descente de gradient stochastique (SGD) :

• Traiter l’échantillon 1 → Calculer l’erreur → Mettre à jour les poids immédiatement
• Traiter l’échantillon 2 → Calculer l’erreur → Mettre à jour les poids immédiatement
• Traiter l’échantillon 3 → Calculer l’erreur → Mettre à jour les poids immédiatement
• Traiter l’échantillon 4 → Calculer l’erreur → Mettre à jour les poids immédiatement
Résultat : 4 mises à jour des poids par époque. Chaque échantillon influence immédiatement le réseau.

Descente de gradient par lot :

• Traiter l’échantillon 1 → Calculer l’erreur → Stocker les gradients
• Traiter l’échantillon 2 → Calculer l’erreur → Accumuler les gradients
• Traiter l’échantillon 3 → Calculer l’erreur → Accumuler les gradients
• Traiter l’échantillon 4 → Calculer l’erreur → Accumuler les gradients
• Moyenne de tous les gradients → Mettre à jour les poids UNE FOIS
Résultat : 1 mise à jour des poids par époque. Tous les échantillons influencent la mise à jour de manière égale.

Différence clé : En SGD, les poids changent après chaque échantillon, donc les échantillons suivants voient des poids différents des premiers. En Descente de gradient par lot, tous les échantillons voient les mêmes poids et nous mettons à jour en fonction du gradient moyen.

Calcul de la perte moyenne : Pour les deux méthodes, on rapporte la perte moyenne sur tous les échantillons de l’époque : Perte Moyenne = (Perte₁ + Perte₂ + Perte₃ + Perte₄) / 4