- Congrès : XXXe Congrès International de Linguistique et de Philologie Romanes (2022-07-04 - 2022-07-09)
- Directeur(s) : Société de linguistique romane
- Pages : 1001-1012
Résumé
L’article présente différents outils développés à l’École nationale des chartes-PSL (Paris) depuis 2015 pour le traitement automatique des états de langue non-standardisés et en particulier de l’ancien français. Progressivement a été constitué le corpus OF3C (Old French Corpus Collection of the École des chartes), balisé au moins en lemmes et en parties du discours, partiellement en morphologie. Ce corpus annoté, librement réutilisable, a servi à entraîner le modèle de lemmatisation Old French fonctionnant grâce à l’apprentissage profond. La présente contribution décrit l’environnement de lemmatisation proposé (outils et données), mais s’attache surtout à évaluer le modèle Old French à partir d’un corpus gold spécialement étiqueté pour ce faire. Les performances du modèle sont ainsi passées au crible et quelques pistes d’amélioration avancées.
Disciplines
Partager sur les réseaux sociaux
Publications de chercheur
CATMuS-Medieval: Consistent Approaches to Transcribing ManuScripts
Publication de chercheur
Communication dans un congrès
- Date de parution : 2024
Layout Analysis Dataset with SegmOnto
Publication de chercheur
Communication dans un congrès
- Date de parution : 2024
Les registres médiévaux de Notre Dame : une archive numérique ouverte de la vie du chapitre
Publication de chercheur
Communication dans un congrès
- Date de parution : 2024