/
Correction orthographique: état de l’art et perspectives Correction orthographique: état de l’art et perspectives

Correction orthographique: état de l’art et perspectives - PowerPoint Presentation

kittie-lecroy
kittie-lecroy . @kittie-lecroy
Follow
402 views
Uploaded On 2017-04-28

Correction orthographique: état de l’art et perspectives - PPT Presentation

s Plan Introduction Présentation des Approches Prototype dun correcteur pour le wolof Conclusion 23ème Conférence sur le Traitement Automatique des Langues NaturellesAtelierTALAf ID: 542655

des pour correction correcteur pour des correcteur correction techniques sentation nguer 2016 hadji taln jep recital talaf wolofconclusion mot

Share:

Link:

Embed:

Download Presentation from below link

Download Presentation The PPT/PDF document "Correction orthographique: état de l’..." is the property of its rightful owner. Permission is granted to download and print the materials on this web site for personal, non-commercial use only, and to display it on your personal computer provided you do not modify the materials and that you retain all copyright notices contained in the materials. By downloading content from our website, you accept the terms of this agreement.


Presentation Transcript

Slide1

Correction orthographique: état de l’art et perspectives pour la langue wolofs

PlanIntroductionPrésentation des ApprochesPrototype d’un correcteur pour le wolofConclusion

23ème Conférence sur le Traitement Automatique des Langues Naturelles,AtelierTALAf, Inalco, Paris, 4-8 Juillet 2016

TALAf : JEP-TALN-RECITAL 2016

Alla LO, El hadji M. NGUER, Cheikh B. DIONE, Mathieu MANGEOT, Mouhamadou KHOULE, Sokhna BAO DIOP, Mame T. CISSE

PRESENTE PAR : EL Hadji M. NGUER

LANI

, Université

Gaston Berger

, Saint-Louis,

Sénégal

LIG

, Université de Grenoble

Alpes,

France.

ARCIV

, Université Cheikh

Anta

Diop

de Dakar,

SénégalSlide2

ContexteProblématique

Notion de correction Orthographique Contexte EL Hadji M. NGUER

TALAf : JEP-TALN-RECITAL 20163

Moins de 20% de la population sénégalaise parle le français

et plus de 80% parle le wolof langue véhiculaire.

PlanIntroductionPrésentation des Approches

Prototype d’un correcteur pour le wolof

Conclusion

Pour

un accès général à l’information et à la formation, le français seul ne suffit pas.

Solution

:

Utiliser

les langues nationales comme le wolof

comme alternative.Slide3

ContexteProblématique

Notion de correction Orthographique Problematique EL Hadji M. NGUER

TALAf : JEP-TALN-RECITAL 20164

Limites

:La langue wolof n’est pas dotée d’outils modernes du TALN comme le dictionnaire et le correcteur.PlanIntroduction

Présentation des ApprochesPrototype d’un correcteur pour le wolof

Conclusion

Objectifs:

Faire l’état

de l’art de la correction orthographique

D

égager

des perspectives de mise en place

d’un

correcteur orthographique pour la langue wolof. Slide4

ContexteProblématique

Notion de correction orthographiqueCorrection Orthographique = Détection + Correction EL Hadji M. NGUER

TALAf : JEP-TALN-RECITAL 20165

Détection

: détection des erreurs potentielles dans un texte donné.

Correction

: Suggestion ordonnée pour corriger l’erreur identifiée

Notion d’erreur:

Forme qui ne correspond à aucune forme mémorisée dans le lexique ou générée

Plan

Introduction

Présentation des Approches

Prototype d’un correcteur pour le wolof

ConclusionSlide5

Techniques de détectionTechniques de correction

Techniques de détection EL Hadji M. NGUER

TALAf : JEP-TALN-RECITAL 20166

Plan

IntroductionPrésentation des ApprochesPrototype d’un correcteur pour le wolofConclusion

N-gramme: une séquence de n caractères construite à partir d’un mot.

Ex:

waskat

: _

wa

was

ask

ska kat

at

_ (3-gramme)

Apres avoir transformé le mot en une suite de n-gramme, chaque séquence :

sera cherché dans la matrice de n-gramme du correcteur,

et sa probabilité d’erreur obtenue à partir du corpus d’apprentissage.

Si

un mot contient par

ex. 2

n-grammes avec une

prob

.

d’erreur qui dépasse le seuil, il sera

« marqué

 »

erroné.

NB: Un

mot avec un

n-gramme absent

ds

la matrice est erroné.Slide6

Consultation de dictionnaire:

Techniques de détection

Techniques de correction

T

echniques de détectionPlanIntroductionPrésentation des ApprochesPrototype d’un correcteur pour le wolofConclusion EL Hadji M. NGUERTALAf : JEP-TALN-RECITAL 2016

7

Cette

méthode consiste à chercher le mot dans le lexique du correcteur.

Suivant

la structure

utilisée

pour construire le lexique, on crée une

fonction

permettant de l’explorer efficacement.

Ainsi

si le mot

se trouve

dans le lexique, il est

considéré comme

correcte

Cependant

le fait de ne pas trouver

le

mot dans le lexique ne signifie pas qu’il soit erroné.

En

effet pour des raison de performance, seules les formes de base sont gardées dans le lexique du correcteur.

- Ainsi un

analyseur morphologique

sera utilisé pour savoir si le mot peut être dérivé à partir d’un mot du lexique du correcteur.Slide7

Techniques de détectionTechniques de correction

Techniques de correction EL Hadji M. NGUER

TALAf : JEP-TALN-RECITAL 20168

Alpha-code:

PlanIntroductionPrésentation des ApprochesPrototype d’un correcteur pour le wolofConclusion

Ex:

Mots

Alpha-code

Gan,

gann

,

nag

,

naag

gna

Amaan

, Man,

namm

,

naam

,

maanaa

mna

L’alpha-code

d’un mot est une chaine de caractères correspondant à l’ensemble des lettres du mot classées par ordre alphabétique, les consonnes avant les voyelles. Slide8

Pour corriger un mot

:il faut d’abord construire son alpha-code. 2. on cherche les

mots ayant ce même alpha-code dans la table des alpha-code du correcteur. 3. Ainsi les mots ayant le même code seront utilisé dans la liste de suggestion.Cependant

cette technique n’est bien efficace car :elle génère des mots sans relation avec le mot à corriger.

Solution: utiliser la distance d’édition pour filtrer et ordonnancer les résultats. EL Hadji M. NGUERTALAf : JEP-TALN-RECITAL 20169Techniques de détectionTechniques de correction

Techniques de correction

Plan

Introduction

Présentation des Approches

Prototype d’un correcteur pour le wolof

ConclusionSlide9

Distance lexicographique: La distance de Levenshtein est le plus souvent utilisée.

0123451012

5220234

33111

2542212552222

Y

A

A

L I

Y

A

L

L

A

2 opérations suffisent pour passer de « 

yalla

« à « 

yaali

 »

EL Hadji M. NGUER

TALAf

: JEP-TALN-RECITAL 2016

10

Techniques de détection

Techniques de correction

Techniques de correction

Plan

Introduction

Présentation des Approches

Prototype d’un correcteur pour le wolof

ConclusionSlide10

N-gramme:

EL Hadji M. NGUERTALAf : JEP-TALN-RECITAL 201611

Techniques de détectionTechniques de correction

Techniques de correction

PlanIntroductionPrésentation des ApprochesPrototype d’un correcteur pour le wolofConclusionLa correction de mots par n-gramme se fait en: appliquant les opération d’édition sur le mot

erroné

et en utilisant

les mots corrects trouvés comme liste de

suggestionSlide11

Suppression

EL Hadji M. NGUER

TALAf

: JEP-TALN-RECITAL 2016

12Techniques de détectionTechniques de correctionTechniques de correction PlanIntroduction

Présentation des ApprochesPrototype d’un correcteur pour le wolof

ConclusionSlide12

Insertion

EL Hadji M. NGUER

TALAf

: JEP-TALN-RECITAL 2016

13Techniques de détectionTechniques de correctionTechniques de correction PlanIntroduction

Présentation des ApprochesPrototype d’un correcteur pour le wolof

ConclusionSlide13

Transposition

EL Hadji M. NGUER

TALAf

: JEP-TALN-RECITAL 2016

14Techniques de détectionTechniques de correctionTechniques de correction PlanIntroduction

Présentation des ApprochesPrototype d’un correcteur pour le wolof

ConclusionSlide14

Substitution

Techniques de détection

Techniques de correction

Techniques de correction

PlanIntroductionPrésentation des ApprochesPrototype d’un correcteur pour le wolofConclusion EL Hadji M. NGUER

TALAf : JEP-TALN-RECITAL 2016

15Slide15

OrganigrammeCritères d’écritures

Analyseur Morphologique Organigramme du correcteur EL Hadji M. NGUER

TALAf : JEP-TALN-RECITAL 201616

Plan

IntroductionPrésentation des ApprochesPrototype d’un correcteur pour le wolofConclusionSlide16

OrganigrammeCritères d’écritures

Recherche dans un dictionnaireAnalyseur Morphologique Les différentes étapes de vérifications EL Hadji M. NGUER

TALAf : JEP-TALN-RECITAL 201617

Etape1: vérification des critères d’écritures

Pas d’occurrence de trois lettres consécutives identiques

Pas d’occurrence de trois consonnes

identique ni

de quatre voyelles

Pas de sourde au début

Pas de géminable doublé

Plan

Introduction

Présentation des Approches

Prototype d’un correcteur pour le wolof

ConclusionSlide17

Etape2: Recherche sur dictionnaire

:

OrganigrammeCritères d’écrituresRecherche dans un dictionnaire

Analyseur Morphologique

EL Hadji M. NGUERTALAf : JEP-TALN-RECITAL 201618 Les différentes étapes de vérificationsPlanIntroductionPrésentation des Approches

Prototype d’un correcteur pour le wolofConclusion

Il

s’agit ici de fonctions simples de recherche de chaine dans un dictionnaire;Slide18

OrganigrammeCritères d’écritures

Analyseur MorphologiqueAnalyseur Morphologique EL Hadji M. NGUER

TALAf : JEP-TALN-RECITAL 201619

Etape3: Formalisme des dérivations simples

RadicalSuffixe

PrefixeRadical

PrefixeRadicalSuffixe

Permutation Consonantique

Plan

Introduction

Présentation des Approches

Prototype d’un correcteur pour le wolof

ConclusionSlide19

EL Hadji M. NGUER

TALAf : JEP-TALN-RECITAL 2016

20Analyseur Morphologique

Automate de base de l’analyseur

Organigramme

Critères d’écritures

Analyseur Morphologique

Plan

Introduction

Présentation des Approches

Prototype d’un correcteur pour le wolof

ConclusionSlide20

EL Hadji M. NGUER

TALAf : JEP-TALN-RECITAL 201620Analyseur Morphologique Organigramme

Critères d’écrituresAnalyseur Morphologique

PlanIntroduction

Présentation des ApprochesPrototype d’un correcteur pour le wolofConclusionL’automate proposé ci-dessus permet de faire la des-affixation d’un mot wolof. Son principe de fonctionnement :chercher d’abord le préfixe du mot et l’enlever s’il en trouve. chercher les suffixes puis pour les enlever eux aussi. Précisons : la suppression des suffixes se fait de la droite vers la gauche en enlevant toujours le suffixe le plus long.Slide21

EL Hadji M. NGUER

TALAf : JEP-TALN-RECITAL 201620Analyseur Morphologique Organigramme

Critères d’écrituresAnalyseur Morphologique

PlanIntroduction

Présentation des ApprochesPrototype d’un correcteur pour le wolofConclusionExemple : Pour le mot « dawalkat » :« daw »+ « al »+ « kat » qui est composé du lemme « daw » suivis des suffixes « al » et « kat », le

transducteur ne trouve pas de préfixe, mais va trouver le suffixe kat qu’il enlève en premier, pour ensuite enlever le suffixe « al ». 

Apres

ceci il renvoie la chaine « 

daw

 » qui est un lemme reconnu du correcteur

. Slide22

zPlanIntroduction

Présentation des ApprochesEtude de cas de la langue wolofConclusion

EL Hadji M. NGUERTALAf : JEP-TALN-RECITAL 2016

21

Conclusion fait l’état de l’art de la correction orthographique.

et réalisé

un prototype de correcteur

orthographique pour

la langue wolof

Plan

Introduction

Présentation des Approches

Prototype d’un correcteur pour le wolof

Conclusion

Dans ce travail qui rentre dans le plan de recherche de l’équipe TAL de l’UGB qui vise à doter les langues du Sénégal (particulièrement le wolof) d’outils modernes du TAL à la hauteur de son utilisation, nous avons :Slide23

zPlanIntroduction

Présentation des ApprochesEtude de cas de la langue wolofConclusion

EL Hadji M. NGUERTALAf : JEP-TALN-RECITAL 2016

21

Perspectivesl’analyseur morphologique (Dione, 2012) en cours de finalisation entre l’université de Bergen de Norvège et l’UGB

Plan

Introduction

Présentation des Approches

Prototype d’un correcteur pour le wolof

Conclusion

Ce

travail sera utilisé pour la mise en œuvre d’un correcteur orthographique pour la langue wolof qui requiert l’utilisation d’un

dictionnaire comme lexique

et d’un

analyseur

morphologique.

Ainsi, il sera utilisé dans la suite

le

dictionnaire

issu du projet

ibaatukaay

en cours d’élaboration entre l’Université de Grenoble et l’UGB.Slide24

Merci de votre attentionSlide25

Nous sommes prêt à répondre à vos questions