s Plan Introduction Présentation des Approches Prototype dun correcteur pour le wolof Conclusion 23ème Conférence sur le Traitement Automatique des Langues NaturellesAtelierTALAf ID: 542655
Download Presentation The PPT/PDF document "Correction orthographique: état de l’..." is the property of its rightful owner. Permission is granted to download and print the materials on this web site for personal, non-commercial use only, and to display it on your personal computer provided you do not modify the materials and that you retain all copyright notices contained in the materials. By downloading content from our website, you accept the terms of this agreement.
Slide1
Correction orthographique: état de l’art et perspectives pour la langue wolofs
PlanIntroductionPrésentation des ApprochesPrototype d’un correcteur pour le wolofConclusion
23ème Conférence sur le Traitement Automatique des Langues Naturelles,AtelierTALAf, Inalco, Paris, 4-8 Juillet 2016
TALAf : JEP-TALN-RECITAL 2016
Alla LO, El hadji M. NGUER, Cheikh B. DIONE, Mathieu MANGEOT, Mouhamadou KHOULE, Sokhna BAO DIOP, Mame T. CISSE
PRESENTE PAR : EL Hadji M. NGUER
LANI
, Université
Gaston Berger
, Saint-Louis,
Sénégal
LIG
, Université de Grenoble
Alpes,
France.
ARCIV
, Université Cheikh
Anta
Diop
de Dakar,
SénégalSlide2
ContexteProblématique
Notion de correction Orthographique Contexte EL Hadji M. NGUER
TALAf : JEP-TALN-RECITAL 20163
Moins de 20% de la population sénégalaise parle le français
et plus de 80% parle le wolof langue véhiculaire.
PlanIntroductionPrésentation des Approches
Prototype d’un correcteur pour le wolof
Conclusion
Pour
un accès général à l’information et à la formation, le français seul ne suffit pas.
Solution
:
Utiliser
les langues nationales comme le wolof
comme alternative.Slide3
ContexteProblématique
Notion de correction Orthographique Problematique EL Hadji M. NGUER
TALAf : JEP-TALN-RECITAL 20164
Limites
:La langue wolof n’est pas dotée d’outils modernes du TALN comme le dictionnaire et le correcteur.PlanIntroduction
Présentation des ApprochesPrototype d’un correcteur pour le wolof
Conclusion
Objectifs:
Faire l’état
de l’art de la correction orthographique
D
égager
des perspectives de mise en place
d’un
correcteur orthographique pour la langue wolof. Slide4
ContexteProblématique
Notion de correction orthographiqueCorrection Orthographique = Détection + Correction EL Hadji M. NGUER
TALAf : JEP-TALN-RECITAL 20165
Détection
: détection des erreurs potentielles dans un texte donné.
Correction
: Suggestion ordonnée pour corriger l’erreur identifiée
Notion d’erreur:
Forme qui ne correspond à aucune forme mémorisée dans le lexique ou générée
Plan
Introduction
Présentation des Approches
Prototype d’un correcteur pour le wolof
ConclusionSlide5
Techniques de détectionTechniques de correction
Techniques de détection EL Hadji M. NGUER
TALAf : JEP-TALN-RECITAL 20166
Plan
IntroductionPrésentation des ApprochesPrototype d’un correcteur pour le wolofConclusion
N-gramme: une séquence de n caractères construite à partir d’un mot.
Ex:
waskat
: _
wa
was
ask
ska kat
at
_ (3-gramme)
Apres avoir transformé le mot en une suite de n-gramme, chaque séquence :
sera cherché dans la matrice de n-gramme du correcteur,
et sa probabilité d’erreur obtenue à partir du corpus d’apprentissage.
Si
un mot contient par
ex. 2
n-grammes avec une
prob
.
d’erreur qui dépasse le seuil, il sera
« marqué
»
erroné.
NB: Un
mot avec un
n-gramme absent
ds
la matrice est erroné.Slide6
Consultation de dictionnaire:
Techniques de détection
Techniques de correction
T
echniques de détectionPlanIntroductionPrésentation des ApprochesPrototype d’un correcteur pour le wolofConclusion EL Hadji M. NGUERTALAf : JEP-TALN-RECITAL 2016
7
Cette
méthode consiste à chercher le mot dans le lexique du correcteur.
Suivant
la structure
utilisée
pour construire le lexique, on crée une
fonction
permettant de l’explorer efficacement.
Ainsi
si le mot
se trouve
dans le lexique, il est
considéré comme
correcte
Cependant
le fait de ne pas trouver
le
mot dans le lexique ne signifie pas qu’il soit erroné.
En
effet pour des raison de performance, seules les formes de base sont gardées dans le lexique du correcteur.
- Ainsi un
analyseur morphologique
sera utilisé pour savoir si le mot peut être dérivé à partir d’un mot du lexique du correcteur.Slide7
Techniques de détectionTechniques de correction
Techniques de correction EL Hadji M. NGUER
TALAf : JEP-TALN-RECITAL 20168
Alpha-code:
PlanIntroductionPrésentation des ApprochesPrototype d’un correcteur pour le wolofConclusion
Ex:
Mots
Alpha-code
Gan,
gann
,
nag
,
naag
gna
Amaan
, Man,
namm
,
naam
,
maanaa
mna
L’alpha-code
d’un mot est une chaine de caractères correspondant à l’ensemble des lettres du mot classées par ordre alphabétique, les consonnes avant les voyelles. Slide8
Pour corriger un mot
:il faut d’abord construire son alpha-code. 2. on cherche les
mots ayant ce même alpha-code dans la table des alpha-code du correcteur. 3. Ainsi les mots ayant le même code seront utilisé dans la liste de suggestion.Cependant
cette technique n’est bien efficace car :elle génère des mots sans relation avec le mot à corriger.
Solution: utiliser la distance d’édition pour filtrer et ordonnancer les résultats. EL Hadji M. NGUERTALAf : JEP-TALN-RECITAL 20169Techniques de détectionTechniques de correction
Techniques de correction
Plan
Introduction
Présentation des Approches
Prototype d’un correcteur pour le wolof
ConclusionSlide9
Distance lexicographique: La distance de Levenshtein est le plus souvent utilisée.
0123451012
5220234
33111
2542212552222
Y
A
A
L I
Y
A
L
L
A
2 opérations suffisent pour passer de «
yalla
« à «
yaali
»
EL Hadji M. NGUER
TALAf
: JEP-TALN-RECITAL 2016
10
Techniques de détection
Techniques de correction
Techniques de correction
Plan
Introduction
Présentation des Approches
Prototype d’un correcteur pour le wolof
ConclusionSlide10
N-gramme:
EL Hadji M. NGUERTALAf : JEP-TALN-RECITAL 201611
Techniques de détectionTechniques de correction
Techniques de correction
PlanIntroductionPrésentation des ApprochesPrototype d’un correcteur pour le wolofConclusionLa correction de mots par n-gramme se fait en: appliquant les opération d’édition sur le mot
erroné
et en utilisant
les mots corrects trouvés comme liste de
suggestionSlide11
Suppression
EL Hadji M. NGUER
TALAf
: JEP-TALN-RECITAL 2016
12Techniques de détectionTechniques de correctionTechniques de correction PlanIntroduction
Présentation des ApprochesPrototype d’un correcteur pour le wolof
ConclusionSlide12
Insertion
EL Hadji M. NGUER
TALAf
: JEP-TALN-RECITAL 2016
13Techniques de détectionTechniques de correctionTechniques de correction PlanIntroduction
Présentation des ApprochesPrototype d’un correcteur pour le wolof
ConclusionSlide13
Transposition
EL Hadji M. NGUER
TALAf
: JEP-TALN-RECITAL 2016
14Techniques de détectionTechniques de correctionTechniques de correction PlanIntroduction
Présentation des ApprochesPrototype d’un correcteur pour le wolof
ConclusionSlide14
Substitution
Techniques de détection
Techniques de correction
Techniques de correction
PlanIntroductionPrésentation des ApprochesPrototype d’un correcteur pour le wolofConclusion EL Hadji M. NGUER
TALAf : JEP-TALN-RECITAL 2016
15Slide15
OrganigrammeCritères d’écritures
Analyseur Morphologique Organigramme du correcteur EL Hadji M. NGUER
TALAf : JEP-TALN-RECITAL 201616
Plan
IntroductionPrésentation des ApprochesPrototype d’un correcteur pour le wolofConclusionSlide16
OrganigrammeCritères d’écritures
Recherche dans un dictionnaireAnalyseur Morphologique Les différentes étapes de vérifications EL Hadji M. NGUER
TALAf : JEP-TALN-RECITAL 201617
Etape1: vérification des critères d’écritures
Pas d’occurrence de trois lettres consécutives identiques
Pas d’occurrence de trois consonnes
identique ni
de quatre voyelles
Pas de sourde au début
Pas de géminable doublé
Plan
Introduction
Présentation des Approches
Prototype d’un correcteur pour le wolof
ConclusionSlide17
Etape2: Recherche sur dictionnaire
:
OrganigrammeCritères d’écrituresRecherche dans un dictionnaire
Analyseur Morphologique
EL Hadji M. NGUERTALAf : JEP-TALN-RECITAL 201618 Les différentes étapes de vérificationsPlanIntroductionPrésentation des Approches
Prototype d’un correcteur pour le wolofConclusion
Il
s’agit ici de fonctions simples de recherche de chaine dans un dictionnaire;Slide18
OrganigrammeCritères d’écritures
Analyseur MorphologiqueAnalyseur Morphologique EL Hadji M. NGUER
TALAf : JEP-TALN-RECITAL 201619
Etape3: Formalisme des dérivations simples
RadicalSuffixe
PrefixeRadical
PrefixeRadicalSuffixe
Permutation Consonantique
Plan
Introduction
Présentation des Approches
Prototype d’un correcteur pour le wolof
ConclusionSlide19
EL Hadji M. NGUER
TALAf : JEP-TALN-RECITAL 2016
20Analyseur Morphologique
Automate de base de l’analyseur
Organigramme
Critères d’écritures
Analyseur Morphologique
Plan
Introduction
Présentation des Approches
Prototype d’un correcteur pour le wolof
ConclusionSlide20
EL Hadji M. NGUER
TALAf : JEP-TALN-RECITAL 201620Analyseur Morphologique Organigramme
Critères d’écrituresAnalyseur Morphologique
PlanIntroduction
Présentation des ApprochesPrototype d’un correcteur pour le wolofConclusionL’automate proposé ci-dessus permet de faire la des-affixation d’un mot wolof. Son principe de fonctionnement :chercher d’abord le préfixe du mot et l’enlever s’il en trouve. chercher les suffixes puis pour les enlever eux aussi. Précisons : la suppression des suffixes se fait de la droite vers la gauche en enlevant toujours le suffixe le plus long.Slide21
EL Hadji M. NGUER
TALAf : JEP-TALN-RECITAL 201620Analyseur Morphologique Organigramme
Critères d’écrituresAnalyseur Morphologique
PlanIntroduction
Présentation des ApprochesPrototype d’un correcteur pour le wolofConclusionExemple : Pour le mot « dawalkat » :« daw »+ « al »+ « kat » qui est composé du lemme « daw » suivis des suffixes « al » et « kat », le
transducteur ne trouve pas de préfixe, mais va trouver le suffixe kat qu’il enlève en premier, pour ensuite enlever le suffixe « al ».
Apres
ceci il renvoie la chaine «
daw
» qui est un lemme reconnu du correcteur
. Slide22
zPlanIntroduction
Présentation des ApprochesEtude de cas de la langue wolofConclusion
EL Hadji M. NGUERTALAf : JEP-TALN-RECITAL 2016
21
Conclusion fait l’état de l’art de la correction orthographique.
et réalisé
un prototype de correcteur
orthographique pour
la langue wolof
Plan
Introduction
Présentation des Approches
Prototype d’un correcteur pour le wolof
Conclusion
Dans ce travail qui rentre dans le plan de recherche de l’équipe TAL de l’UGB qui vise à doter les langues du Sénégal (particulièrement le wolof) d’outils modernes du TAL à la hauteur de son utilisation, nous avons :Slide23
zPlanIntroduction
Présentation des ApprochesEtude de cas de la langue wolofConclusion
EL Hadji M. NGUERTALAf : JEP-TALN-RECITAL 2016
21
Perspectivesl’analyseur morphologique (Dione, 2012) en cours de finalisation entre l’université de Bergen de Norvège et l’UGB
Plan
Introduction
Présentation des Approches
Prototype d’un correcteur pour le wolof
Conclusion
Ce
travail sera utilisé pour la mise en œuvre d’un correcteur orthographique pour la langue wolof qui requiert l’utilisation d’un
dictionnaire comme lexique
et d’un
analyseur
morphologique.
Ainsi, il sera utilisé dans la suite
le
dictionnaire
issu du projet
ibaatukaay
en cours d’élaboration entre l’Université de Grenoble et l’UGB.Slide24
Merci de votre attentionSlide25
Nous sommes prêt à répondre à vos questions