- Congrès : Actes du XIIe Congrès de l’Association internationale d’études occitanes Albi, 2017 (2017-07-10 - 2017-07-15)
- Directeur(s) : Association internationale d'études occitanes (AIEO)
Résumé
À l’heure où la quantité de données disponibles, plus ou moins librement, s’accroît de manière importante, grâce aux corpus, éditions ou bibliothèques numériques, le développement d’outils de fouille de données ou de méthodes d’apprentissage profond permet au chercheur de se constituer un corpus d’étude adapté à ses recherches, d’enrichir ses données et des les exploiter. Des outils ouverts de reconnaissance optique des caractères peuvent être adaptés à un imprimé ancien, un incunable, voire un manuscrit, avec des résultats exploitables, autorisant la constitution rapide de corpus textuels. L’alternance de phases d’entraînement et de correction permet de faire progresser la qualité des résultats, en accumulant rapidement des données textuelles brutes. Celles-ci peuvent ensuite être structurées, par exemple en xml/tei, et enrichies. L’enrichissement par des annotations graphiques ou linguistiques connaît également des automatisations. Ces procédés, connus des linguistes et fonctionnels pour les langues modernes, posent des difficultés pour des langues comme l’occitan médiéval, dues en partie à l’absence de corpus lemmatisés conséquents. Des pistes pour la création d’outils adaptés à la grande variabilité graphique des états anciens de langue, seront présentées, ainsi que des expérimentations pour la lemmatisation de l’occitan médiéval et prémoderne. Ces techniques ouvrent la porte à de nombreuses exploitations. L’augmentation, tant souhaitée, de la quantité de textes et données de qualité disponibles, permet le progrès des méthodes de philologie numérique, si tant est que chacun prenne la peine de rendre ses données librement disponibles en ligne et réutilisables. Par l’exposition de différentes solutions techniques et de quelques micro-analyses à titre d’exemple, cette communication entend montrer une partie de ce que la philologie numérique peut offrir au chercheur en domaine occitan, tout en rappelant les enjeux éthiques sur lesquels reposent de telles pratiques.
Disciplines
Partager sur les réseaux sociaux
Publications de chercheur
CATMuS-Medieval: Consistent Approaches to Transcribing ManuScripts
Publication de chercheur
Communication dans un congrès
- Date de parution : 2024
Layout Analysis Dataset with SegmOnto
Publication de chercheur
Communication dans un congrès
- Date de parution : 2024
Les registres médiévaux de Notre Dame : une archive numérique ouverte de la vie du chapitre
Publication de chercheur
Communication dans un congrès
- Date de parution : 2024