Visualisation MLP - Apprentissage par lot vs stochastique

Choisissez le mode d'apprentissage :

🎯 Descente de gradient stochastique (SGD)

Mettre à jour après CHAQUE échantillon
• Mises à jour plus rapides et fréquentes
• Les poids changent après chaque exemple d'entraînement
• Bruyant mais capable d’échapper aux minima locaux
• Perte actuelle affichée par échantillon

📦 Descente de gradient par lot

Mettre à jour UNE FOIS par époque
• Accumuler les gradients de tous les échantillons
• Les poids sont mis à jour après avoir traité toutes les données
• Direction du gradient stable et cohérente
• Perte moyenne sur tous les échantillons

📚 Comprendre la gestion des erreurs en une époque :

Descente de gradient stochastique (SGD) :

• Traiter l’échantillon 1 → Calculer l’erreur → Mettre à jour les poids immédiatement
• Traiter l’échantillon 2 → Calculer l’erreur → Mettre à jour les poids immédiatement
• Traiter l’échantillon 3 → Calculer l’erreur → Mettre à jour les poids immédiatement
• Traiter l’échantillon 4 → Calculer l’erreur → Mettre à jour les poids immédiatement
Résultat : 4 mises à jour des poids par époque. Chaque échantillon influence immédiatement le réseau.

Descente de gradient par lot :

• Traiter l’échantillon 1 → Calculer l’erreur → Stocker les gradients
• Traiter l’échantillon 2 → Calculer l’erreur → Accumuler les gradients
• Traiter l’échantillon 3 → Calculer l’erreur → Accumuler les gradients
• Traiter l’échantillon 4 → Calculer l’erreur → Accumuler les gradients
• Moyenne de tous les gradients → Mettre à jour les poids UNE FOIS
Résultat : 1 mise à jour des poids par époque. Tous les échantillons influencent la mise à jour de manière égale.

Différence clé : En SGD, les poids changent après chaque échantillon, donc les échantillons suivants voient des poids différents des premiers. En Descente de gradient par lot, tous les échantillons voient les mêmes poids et nous mettons à jour en fonction du gradient moyen.

Calcul de la perte moyenne : Pour les deux méthodes, on rapporte la perte moyenne sur tous les échantillons de l’époque : Perte Moyenne = (Perte₁ + Perte₂ + Perte₃ + Perte₄) / 4

🧠 Apprentissage perceptron multi-couche (MLP) : par lot vs descente de gradient stochastique

Choisissez le mode d'apprentissage :

🎯 Descente de gradient stochastique (SGD)

📦 Descente de gradient par lot

Prêt à démarrer

📊 Suivi des erreurs pour l'époque en cours

📚 Comprendre la gestion des erreurs en une époque :