reaccentue

Module python 3.x pour ré-accentuer du texte à partir d'un dictionnaire au format hunspell.

Le dictionnaire par défaut provient de http://www.dicollecte.org

Il est chargé initialement à partir des fichier ".dic" et ".aff" pour générer les variations de suffixes (féminin, pluriel, conjugaisons) et mis en cache pour les utilisations suivantes.

La capitalisation suit les règles utilisées en France par OpenStreetMap.

Installation

git clone https://github.com/cquest/reaccentue.git
cd reaccentue
pip install -r requirements.txt

Préparation des fichiers linguistiques

Certains mots peuvent exister avec et sans accents, par exemple: venus et vénus.

Pour lever l'ambiguïté, il est possible de s'appuyer sur le mot précédent et de déterminer la fréquence d'apparition la plus élevée.

Exemple: RUE DE VENUS -> Rue de Vénus

Pour calculer ces fréquences, le script doublets.sh s'appuie sur un dump textuel de la version française de wikipédia et génère un tableau du nombre d'apparition de chaque doublet de mots stocké dans un fichier freq5.pz.

cd dico
sh doublets.sh
cd ..

À la première exécution du script reaccentue.py, un dictionnaire sera contruit et stocké en cache (dico/cache.pz).

Utilisation en ligne de commande

Il est possible de n'appliquer l'accentuation que sur une seule chaîne de texte:

python reaccentue.py "BOULEVARD DES MARECHAUX"
Boulevard des Maréchaux

ou sur un fichier CSV, en précisant son nom et la colonne à traiter:

python reaccentue.py test.csv nom

Utilisation depuis python

from reaccentue import reaccentue

print(reaccentue('BOULEVARD DES MARECHAUX'))

Tests

pytest tests.py

Name		Name	Last commit message	Last commit date
Latest commit History 19 Commits
dico		dico
README.md		README.md
reaccentue.py		reaccentue.py
requirements.txt		requirements.txt
tests.py		tests.py
tests.yml		tests.yml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

reaccentue

Installation

Préparation des fichiers linguistiques

Utilisation en ligne de commande

Utilisation depuis python

Tests

About

Releases

Packages

Languages

cquest/reaccentue

Folders and files

Latest commit

History

Repository files navigation

reaccentue

Installation

Préparation des fichiers linguistiques

Utilisation en ligne de commande

Utilisation depuis python

Tests

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages