Script Use of Lexicometry in Sensometrics

4.1.3. Most frequent words. Tables and plots

French panel

All the French words ordered by frequency. Two ways.

res.TD.Fr.Before <-TextData(baseFr,var.text=c(1:ncol(baseFr)), stop.word.user=str.Fr.stopworduser,Fmin=1)
             Frequency N.Documents
boisé                30           8
fruit                28           7
fruité               24           7
tanin                19           8
puissant             17           8
tannique             17           7
mûr                  14           7
équilibré            13           6
très                 13           6
vin                  13           8
bois                 12           5
vanillé              11           6
animal                9           5
épice                 9           5
nonboisé              9           6
alcool                8           6
bouche                8           7
léger                 8           4
long                  8           6
souple                8           4
sucrosité             8           6
asséchant             7           4
évent                 7           4
fraîcheur             7           5
défaut                6           5
fort                  6           6
longueur              6           5
présent               6           5
velouté               6           6
astringent            5           4
charpenté             5           3
plus                  5           4
sec                   5           4
acétate               4           4
ample                 4           3
aspect                4           4
attendre              4           4
beau                  4           4
chaleureux            4           4
crayon                4           4
cuit                  4           4
degarde               4           4
évolution             4           4
farineux              4           4
fin                   4           3
finale                4           3
floral                4           4
fondu                 4           4
gras                  4           4
mou                   4           4
neuf                  4           2
noir                  4           3
petitegarde           4           4
plat                  4           4
réduction             4           4
rond                  4           3
taille                4           4
toasté                4           3
vert                  4           4
acidulé               3           3
agressif              3           3
caramel               3           3
chair                 3           3
dominé                3           2
doux                  3           3
épicé                 3           3
évolué                3           3
frais                 3           3
garrigue              3           2
jeune                 3           3
lacté                 3           3
nez                   3           3
onctueux              3           3
peu                   3           3
réglisse              3           3
sécheresse            3           3
végétal               3           3
acide                 2           2
acidité               2           2
agréable              2           2
agrume                2           2
amer                  2           2
amertume              2           2
bon                   2           2
carignan              2           2
carton                2           2
cerise                2           2
complexe              2           2
concentré             2           2
curieux               2           2
cyste                 2           2
emy                   2           2
équilibre             2           1
étable                2           2
final                 2           2
fraîche               2           2
fumée                 2           2
généreux              2           2
grenache              2           2
humide                2           2
kirché                2           2
lactique              2           2
limite                2           2
matière               2           2
minéral               2           2
olive                 2           2
particulier           2           2
peutannique           2           2
rafle                 2           2
résine                2           2
rouge                 2           2
sucrée                2           2
vif                   2           2
astringence           1           1
cassis                1           1
compoté               1           1
concentration         1           1
confituré             1           1
dur                   1           1
encens                1           1
extrême               1           1
gouleyant             1           1
gourmand              1           1
grillé                1           1
manquedefondu         1           1
moins                 1           1
mûre                  1           1
neutre                1           1
prédominance          1           1
prononcé              1           1
pruneau               1           1
puissance             1           1
râpeux                1           1
structuré             1           1
touche                1           1
trop                  1           1
type                  1           1


summary(res.TD.Fr.Before, ndoc=0, nword=Inf, info=FALSE)
TextData summary

            Before  After
Documents     8.00   8.00
Occurrences 655.00 611.00
Words       149.00 137.00
Mean-length  81.88  76.38

Index of the words
Static ggplot barchart with frequency of words before stopwords

plot(res.TD.Fr.Before, nword=15, sel="word", col.fill="#CC0000", interact=FALSE,
title="Most frequent French words")

Interactive (plotly) barchart with frequency of words, % of the word before and after stopwords:


plot(res.TD.Fr.Before, nword=15, sel="word", col.fill="#CC0000", interact=TRUE, title="Most frequent French words")


To translate the name of 15 most frequent Frech words.

- Building a copy of res.TD.Fr.Before object and creating a vector (original.Fr) with the 15 most frequent French words.

res.Fr.Trans <- res.TD.Fr.Before
original.Fr <- rownames(res.TD.Fr.Before$indexW[1:15,])


boisé fruit fruité tanin puissant tannique mûr équilibré très vin bois vanillé animal épice nonboisé

- Creating a vector translation.Fr with the words in English with the same order than original.Fr

translation.Fr <- c("boisé (woody)", "fruit (fruit)", "fruité (fruity)", "tanin (tannin)", "puissant (powerful)", "tannique (tannic)", "mûr (mature/ripe)", "équilibré (balanced)", "très (very)", "vin (wine)", "bois (wood)", "vanillé (vanillin)", "animal (animal)","épice (spicy)", "nonboisé (unwooded)")


- Creating a data frame with the original words and translation:

df.Fr15Change <- data.frame(original.Fr, translation.Fr)
  original.Fr       translation.Fr
1        boisé        boisé (woody)
2        fruit        fruit (fruit)
3       fruité      fruité (fruity)
4        tanin       tanin (tannin)
5     puissant  puissant (powerful)
6     tannique    tannique (tannic)
7          mûr    mûr (mature/ripe)
8    équilibré équilibré (balanced)
9         très          très (very)
10         vin           vin (wine)
11        bois          bois (wood)
12     vanillé   vanillé (vanillin)
13      animal      animal (animal)
14       épice        épice (spicy)
15    nonboisé  nonboisé (unwooded)

- To change French DocTerm object (only for the 15 most frequent words)

res.Fr.Trans$DocTerm$dimnames$Terms[match(df.Fr15Change$original.Fr , res.Fr.Trans$DocTerm$dimnames$Terms)] <- df.Fr15Change$translation.Fr


- To change indexW with the frequencies (only for the 15 most frequent words)

rownames(res.Fr.Trans$indexW)[match(df.Fr15Change$original.Fr , rownames(res.Fr.Trans$indexW))] <- df.Fr15Change$translation.Fr
- Other way to check changes

summary(res.Fr.Trans, ndoc=0, nword=15, info=FALSE)
TextData summary

            Before  After
Documents     8.00   8.00
Occurrences 655.00 611.00
Words       149.00 137.00
Mean-length  81.88  76.38

Index of the  15  most frequent words
                   Word Frequency N.Documents
1  boisé (woody)               30           8
2  fruit (fruit)               28           7
3  fruité (fruity)             24           7
4  tanin (tannin)              19           8
5  puissant (powerful)         17           8
6  tannique (tannic)           17           7
7  mûr (mature/ripe)           14           7
8  équilibré (balanced)        13           6
9  très (very)                 13           6
10 vin (wine)                  13           8
11 bois (wood)                 12           5
12 vanillé (vanillin)          11           6
13 animal (animal)              9           5
14 épice (spicy)                9           5
15 nonboisé (unwooded)          9           6


- Building a dataframe with the frequency of French words. Two ways:

df.FrW <- data.frame(res.Fr.Trans$indexW[1:15,]) df.FrW <- data.frame(rownames(df.FrW), df.FrW) df.FrW
Table 2.a. Most frequent French words

