- Congrès : Séminaire OMNSH-Epitech : le numérique au service des sciences humaines et sociales (2022-04-25)
Résumé
Dans cette intervention, Aurélien Pellet et Marie Puren présenteront le projet AGODA, financé par le DataLab de la Bibliothèque nationale de France, qui a pour objectif de mettre en ligne les comptes-rendus annotés des débats parlementaires de la fin de la Troisième République (1889-1893). Ce projet est conçu comme une preuve de concept, permettant de mettre en place les différents outils nécessaires au traitement de cette importante masse de documents historiques. Les intervenants se concentreront plus particulièrement sur l’océrisation de ces documents : l’extraction du texte, à partir de ces documents numérisés, est en effet une étape décisive, qui n’est pas sans poser beaucoup de problèmes. La qualité des documents et de la numérisation rend en effet difficile cette opération. Aurélien Pellet et Marie Puren présenteront ainsi les problèmes rencontrés et les solutions choisies pour les surmonter.
Disciplines
Partager sur les réseaux sociaux
Publications de chercheur
CATMuS-Medieval: Consistent Approaches to Transcribing ManuScripts
Publication de chercheur
Communication dans un congrès
- Date de parution : 2024
Layout Analysis Dataset with SegmOnto
Publication de chercheur
Communication dans un congrès
- Date de parution : 2024
Les registres médiévaux de Notre Dame : une archive numérique ouverte de la vie du chapitre
Publication de chercheur
Communication dans un congrès
- Date de parution : 2024