Comprendre la gestion des erreurs pendant l'entraînement
Sélectionnez un mode d'apprentissage et cliquez sur "Entraîner le réseau"
Descente de gradient stochastique (SGD) :
• Traiter l’échantillon 1 → Calculer l’erreur → Mettre à jour les poids immédiatement
• Traiter l’échantillon 2 → Calculer l’erreur → Mettre à jour les poids immédiatement
• Traiter l’échantillon 3 → Calculer l’erreur → Mettre à jour les poids immédiatement
• Traiter l’échantillon 4 → Calculer l’erreur → Mettre à jour les poids immédiatement
Résultat : 4 mises à jour des poids par époque. Chaque échantillon influence
immédiatement le réseau.
Descente de gradient par lot :
• Traiter l’échantillon 1 → Calculer l’erreur → Stocker les gradients
• Traiter l’échantillon 2 → Calculer l’erreur → Accumuler les gradients
• Traiter l’échantillon 3 → Calculer l’erreur → Accumuler les gradients
• Traiter l’échantillon 4 → Calculer l’erreur → Accumuler les gradients
• Moyenne de tous les gradients → Mettre à jour les poids UNE FOIS
Résultat : 1 mise à jour des poids par époque. Tous les échantillons influencent la
mise à jour de manière égale.
Différence clé : En SGD, les poids changent après chaque échantillon, donc les échantillons suivants voient des poids différents des premiers. En Descente de gradient par lot, tous les échantillons voient les mêmes poids et nous mettons à jour en fonction du gradient moyen.
Calcul de la perte moyenne : Pour les deux méthodes, on rapporte la perte moyenne
sur tous les échantillons de l’époque :
Perte Moyenne = (Perte₁ + Perte₂ + Perte₃ + Perte₄) / 4