Script Use of Lexicometry in Sensometrics

4.1.3. Most frequent words. Tables and plots

French panel

All the French words ordered by frequency. Two ways.

res.TD.Fr.Before <-TextData(baseFr,var.text=c(1:ncol(baseFr)), stop.word.user=str.Fr.stopworduser,Fmin=1)
res.TD.Fr.Before$indexW
             Frequency N.Documents
boisé                30           8
fruit                28           7
fruité               24           7
tanin                19           8
puissant             17           8
tannique             17           7
mûr                  14           7
équilibré            13           6
très                 13           6
vin                  13           8
bois                 12           5
vanillé              11           6
animal                9           5
épice                 9           5
nonboisé              9           6
alcool                8           6
bouche                8           7
léger                 8           4
long                  8           6
souple                8           4
sucrosité             8           6
asséchant             7           4
évent                 7           4
fraîcheur             7           5
défaut                6           5
fort                  6           6
longueur              6           5
présent               6           5
velouté               6           6
astringent            5           4
charpenté             5           3
plus                  5           4
sec                   5           4
acétate               4           4
ample                 4           3
aspect                4           4
attendre              4           4
beau                  4           4
chaleureux            4           4
crayon                4           4
cuit                  4           4
degarde               4           4
évolution             4           4
farineux              4           4
fin                   4           3
finale                4           3
floral                4           4
fondu                 4           4
gras                  4           4
mou                   4           4
neuf                  4           2
noir                  4           3
petitegarde           4           4
plat                  4           4
réduction             4           4
rond                  4           3
taille                4           4
toasté                4           3
vert                  4           4
acidulé               3           3
agressif              3           3
caramel               3           3
chair                 3           3
dominé                3           2
doux                  3           3
épicé                 3           3
évolué                3           3
frais                 3           3
garrigue              3           2
jeune                 3           3
lacté                 3           3
nez                   3           3
onctueux              3           3
peu                   3           3
réglisse              3           3
sécheresse            3           3
végétal               3           3
acide                 2           2
acidité               2           2
agréable              2           2
agrume                2           2
amer                  2           2
amertume              2           2
bon                   2           2
carignan              2           2
carton                2           2
cerise                2           2
complexe              2           2
concentré             2           2
curieux               2           2
cyste                 2           2
emy                   2           2
équilibre             2           1
étable                2           2
final                 2           2
fraîche               2           2
fumée                 2           2
généreux              2           2
grenache              2           2
humide                2           2
kirché                2           2
lactique              2           2
limite                2           2
matière               2           2
minéral               2           2
olive                 2           2
particulier           2           2
peutannique           2           2
rafle                 2           2
résine                2           2
rouge                 2           2
sucrée                2           2
vif                   2           2
astringence           1           1
cassis                1           1
compoté               1           1
concentration         1           1
confituré             1           1
dur                   1           1
encens                1           1
extrême               1           1
gouleyant             1           1
gourmand              1           1
grillé                1           1
manquedefondu         1           1
moins                 1           1
mûre                  1           1
neutre                1           1
prédominance          1           1
prononcé              1           1
pruneau               1           1
puissance             1           1
râpeux                1           1
structuré             1           1
touche                1           1
trop                  1           1
type                  1           1

 

summary(res.TD.Fr.Before, ndoc=0, nword=Inf, info=FALSE)
TextData summary

            Before  After
Documents     8.00   8.00
Occurrences 655.00 611.00
Words       149.00 137.00
Mean-length  81.88  76.38

Index of the words
             Word Frequency N.Documents
1   boisé                30           8
2   fruit                28           7
3   fruité               24           7
4   tanin                19           8
5   puissant             17           8
6   tannique             17           7
7   mûr                  14           7
8   équilibré            13           6
9   très                 13           6
10  vin                  13           8
11  bois                 12           5
12  vanillé              11           6
13  animal                9           5
14  épice                 9           5
15  nonboisé              9           6
16  alcool                8           6
17  bouche                8           7
18  léger                 8           4
19  long                  8           6
20  souple                8           4
21  sucrosité             8           6
22  asséchant             7           4
23  évent                 7           4
24  fraîcheur             7           5
25  défaut                6           5
26  fort                  6           6
27  longueur              6           5
28  présent               6           5
29  velouté               6           6
30  astringent            5           4
31  charpenté             5           3
32  plus                  5           4
33  sec                   5           4
34  acétate               4           4
35  ample                 4           3
36  aspect                4           4
37  attendre              4           4
38  beau                  4           4
39  chaleureux            4           4
40  crayon                4           4
41  cuit                  4           4
42  degarde               4           4
43  évolution             4           4
44  farineux              4           4
45  fin                   4           3
46  finale                4           3
47  floral                4           4
48  fondu                 4           4
49  gras                  4           4
50  mou                   4           4
51  neuf                  4           2
52  noir                  4           3
53  petitegarde           4           4
54  plat                  4           4
55  réduction             4           4
56  rond                  4           3
57  taille                4           4
58  toasté                4           3
59  vert                  4           4
60  acidulé               3           3
61  agressif              3           3
62  caramel               3           3
63  chair                 3           3
64  dominé                3           2
65  doux                  3           3
66  épicé                 3           3
67  évolué                3           3
68  frais                 3           3
69  garrigue              3           2
70  jeune                 3           3
71  lacté                 3           3
72  nez                   3           3
73  onctueux              3           3
74  peu                   3           3
75  réglisse              3           3
76  sécheresse            3           3
77  végétal               3           3
78  acide                 2           2
79  acidité               2           2
80  agréable              2           2
81  agrume                2           2
82  amer                  2           2
83  amertume              2           2
84  bon                   2           2
85  carignan              2           2
86  carton                2           2
87  cerise                2           2
88  complexe              2           2
89  concentré             2           2
90  curieux               2           2
91  cyste                 2           2
92  emy                   2           2
93  équilibre             2           1
94  étable                2           2
95  final                 2           2
96  fraîche               2           2
97  fumée                 2           2
98  généreux              2           2
99  grenache              2           2
100 humide                2           2
101 kirché                2           2
102 lactique              2           2
103 limite                2           2
104 matière               2           2
105 minéral               2           2
106 olive                 2           2
107 particulier           2           2
108 peutannique           2           2
109 rafle                 2           2
110 résine                2           2
111 rouge                 2           2
112 sucrée                2           2
113 vif                   2           2
114 astringence           1           1
115 cassis                1           1
116 compoté               1           1
117 concentration         1           1
118 confituré             1           1
119 dur                   1           1
120 encens                1           1
121 extrême               1           1
122 gouleyant             1           1
123 gourmand              1           1
124 grillé                1           1
125 manquedefondu         1           1
126 moins                 1           1
127 mûre                  1           1
128 neutre                1           1
129 prédominance          1           1
130 prononcé              1           1
131 pruneau               1           1
132 puissance             1           1
133 râpeux                1           1
134 structuré             1           1
135 touche                1           1
136 trop                  1           1
137 type                  1           1

 

Static ggplot barchart with frequency of words before stopwords

plot(res.TD.Fr.Before, nword=15, sel="word", col.fill="#CC0000", interact=FALSE,
title="Most frequent French words")

Interactive (plotly) barchart with frequency of words, % of the word before and after stopwords:

 

plot(res.TD.Fr.Before, nword=15, sel="word", col.fill="#CC0000", interact=TRUE, title="Most frequent French words")

 

To translate the name of 15 most frequent Frech words.

- Building a copy of res.TD.Fr.Before object and creating a vector (original.Fr) with the 15 most frequent French words.

res.Fr.Trans <- res.TD.Fr.Before
original.Fr <- rownames(res.TD.Fr.Before$indexW[1:15,])
cat(original.Fr)

 

boisé fruit fruité tanin puissant tannique mûr équilibré très vin bois vanillé animal épice nonboisé

- Creating a vector translation.Fr with the words in English with the same order than original.Fr

translation.Fr <- c("boisé (woody)", "fruit (fruit)", "fruité (fruity)", "tanin (tannin)", "puissant (powerful)", "tannique (tannic)", "mûr (mature/ripe)", "équilibré (balanced)", "très (very)", "vin (wine)", "bois (wood)", "vanillé (vanillin)", "animal (animal)","épice (spicy)", "nonboisé (unwooded)")

 

- Creating a data frame with the original words and translation:

df.Fr15Change <- data.frame(original.Fr, translation.Fr)
df.Fr15Change
  original.Fr       translation.Fr
1        boisé        boisé (woody)
2        fruit        fruit (fruit)
3       fruité      fruité (fruity)
4        tanin       tanin (tannin)
5     puissant  puissant (powerful)
6     tannique    tannique (tannic)
7          mûr    mûr (mature/ripe)
8    équilibré équilibré (balanced)
9         très          très (very)
10         vin           vin (wine)
11        bois          bois (wood)
12     vanillé   vanillé (vanillin)
13      animal      animal (animal)
14       épice        épice (spicy)
15    nonboisé  nonboisé (unwooded)

- To change French DocTerm object (only for the 15 most frequent words)

res.Fr.Trans$DocTerm$dimnames$Terms[match(df.Fr15Change$original.Fr , res.Fr.Trans$DocTerm$dimnames$Terms)] <- df.Fr15Change$translation.Fr

 

- To change indexW with the frequencies (only for the 15 most frequent words)

rownames(res.Fr.Trans$indexW)[match(df.Fr15Change$original.Fr , rownames(res.Fr.Trans$indexW))] <- df.Fr15Change$translation.Fr
res.Fr.Trans$indexW[1:15,]
                     Frequency N.Documents
boisé (woody)               30           8
fruit (fruit)               28           7
fruité (fruity)             24           7
tanin (tannin)              19           8
puissant (powerful)         17           8
tannique (tannic)           17           7
mûr (mature/ripe)           14           7
équilibré (balanced)        13           6
très (very)                 13           6
vin (wine)                  13           8
bois (wood)                 12           5
vanillé (vanillin)          11           6
animal (animal)              9           5
épice (spicy)                9           5
nonboisé (unwooded)          9           6

 

- Other way to check changes

summary(res.Fr.Trans, ndoc=0, nword=15, info=FALSE)
TextData summary

            Before  After
Documents     8.00   8.00
Occurrences 655.00 611.00
Words       149.00 137.00
Mean-length  81.88  76.38

Index of the  15  most frequent words
                   Word Frequency N.Documents
1  boisé (woody)               30           8
2  fruit (fruit)               28           7
3  fruité (fruity)             24           7
4  tanin (tannin)              19           8
5  puissant (powerful)         17           8
6  tannique (tannic)           17           7
7  mûr (mature/ripe)           14           7
8  équilibré (balanced)        13           6
9  très (very)                 13           6
10 vin (wine)                  13           8
11 bois (wood)                 12           5
12 vanillé (vanillin)          11           6
13 animal (animal)              9           5
14 épice (spicy)                9           5
15 nonboisé (unwooded)          9           6

 

- Building a dataframe with the frequency of French words. Two ways:

df.FrW <- data.frame(res.Fr.Trans$indexW[1:15,]) df.FrW <- data.frame(rownames(df.FrW), df.FrW) df.FrW
                         rownames.df.FrW. Frequency N.Documents
boisé (woody)               boisé (woody)        30           8
fruit (fruit)               fruit (fruit)        28           7
fruité (fruity)           fruité (fruity)        24           7
tanin (tannin)             tanin (tannin)        19           8
puissant (powerful)   puissant (powerful)        17           8
tannique (tannic)       tannique (tannic)        17           7
mûr (mature/ripe)       mûr (mature/ripe)        14           7
équilibré (balanced) équilibré (balanced)        13           6
très (very)                   très (very)        13           6
vin (wine)                     vin (wine)        13           8
bois (wood)                   bois (wood)        12           5
vanillé (vanillin)     vanillé (vanillin)        11           6
animal (animal)           animal (animal)         9           5
épice (spicy)               épice (spicy)         9           5
nonboisé (unwooded)   nonboisé (unwooded)         9           6

 

- Building the table

row.names(df.FrW) <- NULL colnames(df.FrW) <- c("Words", "Count", "No.docs") df.FrW
                  Words Count No.docs
1         boisé (woody)    30       8
2         fruit (fruit)    28       7
3       fruité (fruity)    24       7
4        tanin (tannin)    19       8
5   puissant (powerful)    17       8
6     tannique (tannic)    17       7
7     mûr (mature/ripe)    14       7
8  équilibré (balanced)    13       6
9           très (very)    13       6
10           vin (wine)    13       8
11          bois (wood)    12       5
12   vanillé (vanillin)    11       6
13      animal (animal)     9       5
14        épice (spicy)     9       5
15  nonboisé (unwooded)     9       6

 

Table 2.a. Most frequent French words

kableExtra::kable(df.FrW,
caption = "<left><strong>Table 2.a. Most frequent French words</strong></left>") %>%
column_spec(1, bold = T) %>% kable_classic(full_width = F, html_font = "Cambria") %>%
row_spec(seq(2,nrow(df.FrW),2), background="#CCFFFF")