Qu’est-ce que le data cleaning ?
Pourquoi faut-il régulièrement nettoyer sa donnée ? Pour tout simplement concentrer vos efforts et vos dépenses sur une BDD de qualité et en tirer le maximum de bénéfices. Avec des données nettoyées, vous gagnez : Si vous associez une conscience éthique, vous faites également un petit geste en évitant de polluer inutilement 😉 Comment nettoyer vos données sans (trop) perdre de temps ? Step 1 : posez-vous les bonnes questions ! Quels sont les objectifs de votre entreprise dans cette démarche de nettoyage ? Comment souhaite-t-elle utiliser cette donnée ? Qui l’utilisera ? Une fois que l’ensemble de l’équipe est sur la même longueur d’ondes, il est temps d’agir. Avant de commencer une quelconque manipulation, assurez-vous de bien posséder une copie de cette BDD. Commencez par reformater ou compléter les données erronées qui sont à votre portée, les dates par exemple. Certaines dates ne sont pas prises en compte suite à une erreur de formatage comme MM/JJ/AA au lieu de JJ/MM/AA. Step 2 : supprimez ensuite les données sales qui ne peuvent être “réparées”. Step 3 : enfin, identifiez et supprimez les doublons. Et le tour est joué ! Le nettoyage de la donnée est, cependant, une tâche chronophage qui demande beaucoup de rigueur et de régularité (idéalement de manière quotidienne ou hebdomadaire, cela assure la qualité de la démarche). Elle représente d’ailleurs une grande charge de travail pour les data scientist. Il existe aujourd’hui de nombreux outils qui permettent d’automatiser cette tâche et d’alléger la charge de travail de vos équipes data. Ces outils vous proposent, en général, d’identifier les champs manquants et les erreurs et de les modifier ou supprimer par la suite comme pour les adresses mail erronées suite à des fautes de frappe. Vous souhaitez en savoir davantage sur le data cleaning ? N’hésitez pas à nous contacter.