Traitement du langage naturel
L'objectif de cette partie était de proposer une vision analytique textuelle des données Reddit concernant les élections présidentielles de 2017.
Pour y parvenir, nous avons procédé à une analyse exploratoire des données en utilisant des outils graphiques pour créer des graphiques explicatifs (Word cloud/Correlation Matrix) afin de mieux comprendre ce qui se cache derrière les données qualitatives type Text et Submission Title.
On a réalisé par la suite une classification des textes à l'aide d'outils de traitement du langage naturel.
Finalement, nous nous sommes basés sur les résultats recueillis de la phase de l’analyse de sentiment pour faire une prédiction et pour visualiser le type de sentiment (Positive/Negative/Neutral) envers les candidats présidentiels.
Analyse de sentiment du titre du fil de discussion (Submission_title)
Distribution du sentiment

Fonction de répartition (CDF)
La méthode de la fonction de distribution cumulative nous a permis de décrire la distribution de notre variable. L'avantage de la FCD est qu'elle peut être définie pour tout type de variable aléatoire.

Analyse de sentiment basée sur le TimeStamp
- Partitionnement des données
Afin d’avoir des résultats plus pertinents en termes d’analyse de sentiment, nous avons procédé à une partition des données en nous basant sur le timestamp.
- Distribution quotidienne des sentiments pour chaque partition

- Fluctuation de la moyenne des sentiments basé le timetamp

- Pearson et Spearman Correlations

Nuages de mots basés sur les sentiments des utilisateurs et pour les différents flairs
Les nuages de mots générés pour les différents flairs nous permettent de sélectionner qualitativement les flairs les plus appropriés pour notre question de recherche.
- Politique :

- Société

- News

- Science

- Culture

- Ask France

- Technos

L’enseignement tiré de ces nuages de mots est que qualitativement, vis-à-vis du thème de la campagne présidentielle, les flairs Politique, Société et News sont les plus pertinents.
Nuages de mots associés à un sentiment positif et négatif
Nous vérifions qualitativement l’association faite par TLN pour notre corpus entre nuages de mots et sentiment positif/négatif.

Analyse de sentiment des commentaires (variable Text)

- Distribution quotidienne des sentiments pour chaque partition

- Autocorrélation (Positive et Négative) pour la variable text

Prédiction du sentiment des commentaires
- Vue d’ensemble des données

- Prédictions

- Fluctuation de la moyenne du sentiment (Positive & Negative) après prédictions

- Graphistry : Presidential Flower
La fleur présidentielle permet d’explorer, pour chaque fil de discussion, le sentiment qui prédomine dans les commentaires citant tel ou tel candidat.