L'étude de la fréquence des mots, qui appartient au domaine de l'analyse lexicale, aide notamment à repérer les “thème / rhème” des textes (appelés “discourse topics” en anglais). Nous proposons un outil simple, se situant à mi-chemin entre analyse lexicale et analyse stylistique, permettant la reconnaissance de listes significatives de mots fréquents pour l'analyse contrastive de deux textes, appelées Chaînes de Formes Partagées (CFP).
Cet outil inspiré des diagrammes de Sankey aide à la détection d'ensembles de mots classés dans un ordre inversé (ou pas) dans deux textes différents. Lorsqu'une chaîne de mots est mise en évidence, l'analyse automatique peut être étendue à l'étude de leurs collocations (ou cooccurrents) pour affiner l'analyse. Le but est de traiter une CFP comme un guide pour l'interprétation des textes, dans le domaine de l'analyse stylistique.
La visualisation ci-dessous les deux listes de mots fournies. Les tailles des mots dépendent de leur nombre d'occurrences dans les 2 listes fournies. Si le même mot apparaît du côté gauche et du côté droit, un lien est dessiné entre les deux occurrences : le lien est bleu si le mot est mieux classé dans la seconde liste, rouge s'il est mieux classé dans la première, gris s'il a le même classement dans les deux listes. Cette visualisation aide à détecter les ensembles de mots qui sont classés dans un ordre inversé dans la première et la seconde liste. Pour trouver de tels ensembles, il faut trouver un lien bleu qui intersecte un lien rouge, et identifier les autres liens qui les intersectent, dont les extrémités gauche et droite apparaissent selon un ordre inversé.
Pour mettre un lien en valeur, il suffit de cliquer dessus afin de le rendre plus sombre. Vous pouvez également cliquer sur un mot pour le mettre en italique. Dans les deux cas, cliquer de nouveau annulera l'effet du clic précédent.
CFP - Chaînes de formes partagées, un outil visuel pour comparer les fréquences de mots
de deux textes
Copyright © 2015-2017 - Nadège Lechevrel
& Philippe Gambette.
This program is free software: you can redistribute it and/or modify it under the terms of the GNU General Public License as published by the Free Software Foundation, either version 3 of the License, or (at your option) any later version.
This program is distributed in the hope that it will be useful, but without any warranty; without even the implied warranty of merchantability or fitness for a particular purpose. See the GNU General Public License for more details.