La préparation des données accapare souvent 80 % du temps consacré à un projet, et les 20 % restants servent à leur analyse. La partie la plus intéressante est bien sûr la dernière, mais la qualité des résultats dépendra de l’attention portée au nettoyage des données. Celles-ci proviennent souvent de sources multiples et présentent des valeurs manquantes, des valeurs aberrantes, des unités très variées, etc. De plus, elles regroupent des variables numériques, catégoriques et textuelles sans liens apparents. Il faut donc les nettoyer, combler les lacunes, supprimer les erreurs et les convertir, entre autres. Ainsi, la phase de prétraitement des données consiste à les peaufiner afin d’en extraire un maximum d’informations. Nous allons voir les principales étapes de prétraitement et utiliser des scripts en Python pour les mettre en pratique sur plusieurs jeux de données réelles.