Skip to content

Traitement du langage naturel

L'objectif de cette partie était de proposer une vision analytique textuelle des données Reddit concernant les élections présidentielles de 2017.

Pour y parvenir, nous avons procédé à une analyse exploratoire des données en utilisant des outils graphiques pour créer des graphiques explicatifs (Word cloud/Correlation Matrix) afin de mieux comprendre ce qui se cache derrière les données qualitatives type Text et Submission Title.

On a réalisé par la suite une classification des textes à l'aide d'outils de traitement du langage naturel.

Finalement, nous nous sommes basés sur les résultats recueillis de la phase de l’analyse de sentiment pour faire une prédiction et pour visualiser le type de sentiment (Positive/Negative/Neutral) envers les candidats présidentiels.

Analyse de sentiment du titre du fil de discussion (Submission_title)

Distribution du sentiment

NLP

Fonction de répartition (CDF)

La méthode de la fonction de distribution cumulative nous a permis de décrire la distribution de notre variable. L'avantage de la FCD est qu'elle peut être définie pour tout type de variable aléatoire.

NLP

Analyse de sentiment basée sur le TimeStamp

  • Partitionnement des données

Afin d’avoir des résultats plus pertinents en termes d’analyse de sentiment, nous avons procédé à une partition des données en nous basant sur le timestamp.

  • Distribution quotidienne des sentiments pour chaque partition

NLP

  • Fluctuation de la moyenne des sentiments basé le timetamp

NLP

  • Pearson et Spearman Correlations

NLP

Nuages de mots basés sur les sentiments des utilisateurs et pour les différents flairs

Les nuages de mots générés pour les différents flairs nous permettent de sélectionner qualitativement les flairs les plus appropriés pour notre question de recherche.

  • Politique :

nuage

  • Société

nuage

  • News

nuage

  • Science

nuage

  • Culture

nuage

  • Ask France

nuage

  • Technos

nuage

L’enseignement tiré de ces nuages de mots est que qualitativement, vis-à-vis du thème de la campagne présidentielle, les flairs Politique, Société et News sont les plus pertinents.

Nuages de mots associés à un sentiment positif et négatif

Nous vérifions qualitativement l’association faite par TLN pour notre corpus entre nuages de mots et sentiment positif/négatif.

NLP

Analyse de sentiment des commentaires (variable Text)

NLP

  • Distribution quotidienne des sentiments pour chaque partition

NLP

  • Autocorrélation (Positive et Négative) pour la variable text

NLP

Prédiction du sentiment des commentaires

  • Vue d’ensemble des données

NLP

  • Prédictions

NLP

  • Fluctuation de la moyenne du sentiment (Positive & Negative) après prédictions

NLP

La fleur présidentielle permet d’explorer, pour chaque fil de discussion, le sentiment qui prédomine dans les commentaires citant tel ou tel candidat.

fleur