Standardizing linguistic data: method and tools for annotating (pre-orthographic) French

Congrès : Proceedings of the 2nd International Digital Tools & Uses Congress (DTUC '20) (2020-10-15 - 2020-10-17)

Consulter la fiche HAL

Résumé

With the development of big corpora of various periods, it becomes crucial to standardise linguistic annotation (e.g. lemmas, POS tags, morphological annotation) to increase the interoperability of the data produced, despite diachronic variations. In the present paper, we describe both methodologically (by proposing annotation principles) and technically (by creating the required training data and the relevant models) the production of a linguistic tagger for (early) modern French (16-18th c.), taking as much as possible into account already existing standards for contemporary and, especially, medieval French.

Disciplines

Humanités numériques

Partager sur les réseaux sociaux

À découvrir

Découvrez d'autres productions de l'École sur les mêmes thématiques.

Humanités numériques

Consulter la page «Humanités numériques»

Computational Museology in the Age of Experience

Vidéo
- Sarah Kenderdine
Whose Pen Wrote the Map? Battling Over the Armenian Medieval Text Ashkharhatsuyts with Stylometry

Publication de chercheur
- Jean-Baptiste Camps,
  Chahan Vidal-Gorène
From questions to insights: a reproducible question-answering pipeline for historiographical corpus exploration

Publication de chercheur
- Lucas Terriel,
  Vincent Jolivet
A Riddle in a Haystack: LLM Detection of Intricate Wordplays in Colette and Willy's Novels for Authorship Attribution

Publication de chercheur
- Florian Cafiero,
  Marie Puren
Greening your database of literary works: How to avoid reinventing vocabularies, in favor of sustainable, reusable models

Publication de chercheur
- Kelly Christensen,
  Jean-Baptiste Camps
Évaluation automatique du retour à la source dans un contexte historique long et bruité : les débats parlementaires de la Troisième République française

Publication de chercheur
- Aurélien Pellet,
  Julien Perez,
  Marie Puren
Style in Eight Syllables: Metric Annotation and Stylometry of Chrétien de Troyes and Contemporaries

Publication de chercheur
- Jean-Baptiste Camps,
  Florian Cafiero,
  Philippe Chaumet-Riffaud,
  Damien Conceicao,
  Ulysse Godreau,
  Émilie Guidi,
  Théo Moins,
  Pierre-Alexandre Nistor,
  Benedetta Salvati,
  Alexandre Lionnet-Rollin
The times are a-changin': présent vs passé simple in French novels (1811-2024)

Publication de chercheur
- Simon Gabay,
  Jean Barré,
  Florian Cafiero
Consulter la page «Humanités numériques»

Nous suivre

Standardizing linguistic data: method and tools for annotating (pre-orthographic) French

Résumé

Résumé

Disciplines

Humanités numériques

Partager sur les réseaux sociaux

À découvrir

Humanités numériques

Computational Museology in the Age of Experience

Whose Pen Wrote the Map? Battling Over the Armenian Medieval Text Ashkharhatsuyts with Stylometry

From questions to insights: a reproducible question-answering pipeline for historiographical corpus exploration

A Riddle in a Haystack: LLM Detection of Intricate Wordplays in Colette and Willy's Novels for Authorship Attribution

Greening your database of literary works: How to avoid reinventing vocabularies, in favor of sustainable, reusable models

Évaluation automatique du retour à la source dans un contexte historique long et bruité : les débats parlementaires de la Troisième République française

Style in Eight Syllables: Metric Annotation and Stylometry of Chrétien de Troyes and Contemporaries

The times are a-changin': présent vs passé simple in French novels (1811-2024)