Dans le cours : Python : L'analyse prédictive
Découvrir la méthode CRISP-DM - Tutoriel Python
Dans le cours : Python : L'analyse prédictive
Découvrir la méthode CRISP-DM
Découvrons ensemble ce qu'est la méthode CRISP-DM. CRISP-DM vient du mot Cross-Industry Standard Process for Data Mining. C'est une méthode créée en 1997 par IBM et mise à l'épreuve sur le terrain, permettant d'orienter les travaux d'exploration de données. Aujourd'hui encore, c'est une méthode que l'on utilise pour l'analyse de données, notamment pour l'analyse prédictive. Cette méthode fonctionne en six itérations. Dans un premier temps, et c'est ce qui conditionne chacune des problématiques, il s'agit tout simplement de la compréhension du business et de la problématique. En fonction de cela, on pourra détecter, importer et travailler les données. Ensuite, nous pourrons concaténer, effectuer des jointures, ou tout simplement préparer les données. On trouvera dans cette phase de préparation des données que l'on appelle particulièrement préprocessing les étapes de visualisation et de nettoyage de données, mais aussi d'exploration de celles-ci. Une fois ces étapes réalisées, nous passons à la phase de modélisation. C'est lors de cette étape que nous effectuerons notamment des prédictions, des prévisions, ou même des algorithmes de compréhension des données un peu plus poussés. Une fois que nous aurons réalisé cette phase de modélisation et testé plusieurs algorithmes, puis plusieurs arguments dans ces algorithmes, nous évaluerons ces modèles et déterminerons quel algorithme, avec quels paramètres, est le plus performant. Lorsque cette étape d'évaluation et de choix d'algorithmes sera effectuée, nous allons réaliser le déploiement. Évidemment, au cours de cette étape d'évaluation, nous pouvons à tout moment effectuer des allers-retours avec le métier, préparer des étapes et des réunions qui permettront d'approfondir les résultats que nous avons pu obtenir, et affiner les étapes qui suivent, à savoir la récupération de données supplémentaires, la préparation de ces données et leur modélisation, pour améliorer notre modèle et avoir des scores plus performants. Voici donc les différentes étapes qui composent la méthodologie CRISP-DM. Cette méthodologie, vous le verrez, consiste en des étapes nécessaires pour l'analyse et la prédiction de données. Nous verrons et développerons ces étapes en Python.