Chapter 7. Twitter

1. script.twitter

script.twitter.R can be downloaded from:

* in Windows format (latin1)  http://www.xplortext.org/Rdata/script.twitter.R

* in Mac & Linux format (UTF-8)  http://www.xplortext.org/Rdata/mac/script.twitter.R

2. Charger le logiciel (Xplortext)

3. En plus du package (Xplortext, on doit charger les packages suivants)


En cas de vouloir décharger ces propres tweets, ce qui obliqe a s’inscrire sur Twitter

library(mvtnorm)

library(manipulate)

library(twitteR)

Pour l’autorisation d’accès au site Twitter, il faut avoir les valeurs de certaines clés :

Des tweets de la part de @Lesmatinsfcult, Matins FranceCulture : Tweets from @Lesmatinsfcult, Matins FranceCulture:

En fait, la récolte doit faite plusieurs fois avec le nombre maximimal n = 3200 et avec le paramètre sinceID, “Minimum (not inclusive) ID to search for”.


4. Pour reproduire les résultats vus dans la section Twitter, partir du fichier indiqué ci-dessous


Prétraitement

Tout d’abord, voir le pré-traitement jusqu’à arriver au corpus analysé avec Xplortext

File can be downloaded from the Internet and save it to some directory:

Windows format: http://www.xplortext.org/Rdata/copy_tweets_dot_df.RData

Mac & Linux format: http://www.xplortext.org/Rdata/mac/copy_tweets_dot_df.RData

Charger les données

Filtrage et extraction des parties souhaitées des données de source

Le nombre de urls n’est pas grand. Nous les effaçons :

Les première et dernière dates sont : 2015-06-26, 2015-12-18.

A partir d’une telle heure d’envoi du tweet, “2015-12-18 07:35:34 UTC”, extraire “2015-12-18” : Le jour va être pris ici comme indicateur du temps de l’émission du tweet.

Auteurs des tweets, signalés dans la grande majorité des tweets.

Pour commencer : l’extraction des noms d’auteurs des tweets.

Souvent ce nom de personne précéde le texte du tweet. On détermine ces noms, moyennant le caractère deux points. Il est possible qu’il n’y ait pas de nom Un nom de personne peut comporter 1, 2 ou 3 mots. (Exemple: “Bruno Aguilera Barchet :”. Mais aussi : A partir de 7h40 :“, ou absence de nom.

Prenons ces noms de personne potentiels

Pour avoir un vrai nom de personne, on exigera que cette partie du texte qui vient d’être déterminée comporte au maximum 3 mots ou suites de charactères.

Le nombre de mots dans ce que nous cherchons comme le prénom, ou la ou les initiales.

A noter que l’absence de caractère donne 1, ce qui nous arrange.

Ici on met à jour la liste des noms personnels pour le cas où il ne s’agit pas du nom, mais plutôt un ensemble de mots

On retient des noms. Autrement, “NoAck”.

Maintenant on retient les tweets sans ces noms personnels :

NOS DONNÉES: un tweet, l’auteur, le jour d’envoi : tweet.ack.day sont les données à analyser.

Analyse: AC + classification

Sélection des mots: voir les arguments de TextData Variables contextuelles : l’auteur du tweet, le jour d’envoi. “&”, en html “&”, est devenu “amp”; l’effacer : Le mot “7h40” se répète toujours (dans “A partir de 7h40”), l’effacer : Pour mémoire: analyse directe des tweets (non réellement utilisée)

Sélection des mots

AC agrégée sur les jours x mots. ncp = 5

Graphiques

Classification hiérarchique sous contrainte de contiguité chronologique

Effectifs et contenu en jours des classes

Mots caractéristiques des classes; documents paragons et spécifiques des classes


Extraction des hashtags pour les utiliser comme colonnes supplémentaires de l’AC

Extraction des hashtags: Pour str_evtract_all

Un exemple :

Effacer de la ponctuation, sauf # :

A noter : #COP21 #cop21 ; #lematins #lesmatins #les ; #syrie #Syrie ; primaires #primairesamericaines ; #martindete #martinsdete ; etc. On les laisse pour avoir une analyse preliminaire sur ces donnees. Initialiser la matrice qui croise tweets par themes :

Pour sélectionner les themes qui sont dans > 5 tweets

Ici, on fait une etude par AC, avec les themes definis par les hashtags comme supplementaires.

Juxtaposition du jour et des thèmes

Eliminer tweets vides

Eliminer thèmes de frequence nulle

Juxtaposition des mots selectionnès et des thèmes

Aggregate tweets par jour pour avoir ainsi tweet en ligne, en colonnes mots suivis de hashtags

CA from FactoMineR

Représentation des hashtags ou thèmes présents dans plus de 5 tweets

Représentation des hashtags les plus extrêmes