• Congrès : Séminaire OMNSH-Epitech : le numérique au service des sciences humaines et sociales (2022-04-25)

Résumé

Dans cette intervention, Aurélien Pellet et Marie Puren présenteront le projet AGODA, financé par le DataLab de la Bibliothèque nationale de France, qui a pour objectif de mettre en ligne les comptes-rendus annotés des débats parlementaires de la fin de la Troisième République (1889-1893). Ce projet est conçu comme une preuve de concept, permettant de mettre en place les différents outils nécessaires au traitement de cette importante masse de documents historiques. Les intervenants se concentreront plus particulièrement sur l’océrisation de ces documents : l’extraction du texte, à partir de ces documents numérisés, est en effet une étape décisive, qui n’est pas sans poser beaucoup de problèmes. La qualité des documents et de la numérisation rend en effet difficile cette opération. Aurélien Pellet et Marie Puren présenteront ainsi les problèmes rencontrés et les solutions choisies pour les surmonter.

Disciplines

Partager sur les réseaux sociaux

Publications de chercheur

Publications aux éditions de l’École

Sur les mêmes thématiques

Applications, éditions et jeux de données