Le surapprentissage expliqué sans jargon

Votre algorithme affiche 98 pour cent de précision sur vos données d'entraînement. Génial, non ? Vous le testez sur de nouvelles données et là, catastrophe : 52 pour cent. Bienvenue dans le monde du surapprentissage.

Ce qui se passe vraiment : votre modèle a mémorisé vos exemples au lieu de comprendre les patterns généraux. Comme un étudiant qui apprend les réponses par cœur sans comprendre les concepts.

Symptôme évident : un écart massif entre performance d'entraînement et performance de validation. Si votre random forest atteint 99 pour cent sur l'entraînement mais 65 pour cent sur le test, vous avez un problème.

Causes fréquentes : trop de features par rapport au nombre d'exemples. Avec 50 variables et 100 lignes de données, n'importe quel algorithme va trouver des corrélations factices.

Solutions concrètes : limitez la profondeur de vos arbres de décision à 5 ou 6 niveaux maximum. Utilisez la validation croisée pour tester sur plusieurs découpages différents. Ajoutez de la régularisation L2 à votre régression logistique.

Règle pratique : gardez toujours 20 pour cent de vos données complètement à l'écart jusqu'au test final. Ne les touchez jamais pendant le développement.

Le surapprentissage tue plus de projets ML que les bugs de code.

Le surapprentissage expliqué sans jargon

Préférences de cookies