Dans le cours : Machine learning : Traitement du langage naturel avec Python

Accédez au cours complet aujourd’hui

Inscrivez-vous aujourd’hui pour accéder à plus de 24 600 cours dispensés par des experts.

Analyser les features

Analyser les features

Nous avons ajouté deux nouvelles colonnes à notre jeu de données, à savoir la colonne Content_len qui reprend le nombre de caractères dans chaque e-mail sans considérer les espaces ; également, la colonne punctuation_rate qui nous renseigne sur le taux de caractères de ponctuation dans un e-mail. Nous avons rajouté ces deux colonnes dans le but de les utiliser pour construire un modèle de prédiction sur la nature d'un e-mail, à savoir si un e-mail est un spam ou pas. Nous avons supposé que ces deux variables que nous avons rajoutées ont un pouvoir de prédiction sur la nature effectivement d'un e-mail, à savoir si c'est un spam ou pas. Dans cette vidéo, nous allons visualiser graphiquement ces deux colonnes afin de mesurer leur pouvoir de prédiction sur le caractère spam ou pas d'un e-mail. Pour cela, nous allons charger la bibliothèque matplotlib. Puis, nous allons construire un graphique composé de deux histogrammes ; le premier sera construit en utilisant uniquement les e-mails qui…

Table des matières