Chahan Vidal-Gorène, responsable du master « Humanités numériques », et l'équipe de la mission « Projets numériques » ont intégré une nouvelle langue, l'arménien, à l'application Deucalion, infrastructure développée par l'École qui permet l’analyse de textes médiévaux (identification des lemmes, des catégories du discours...).
La mise à jour de Deucalion concerne l’intégration de trois variantes de l’arménien :
- l’arménien classique, qui est l’état de langue antérieur au XIXe siècle et que l’on retrouve dans les manuscrits médiévaux et la liturgie
- l’arménien moderne occidental, qui est l’état de langue moderne parlé en diaspora arménienne
- l’arménien moderne oriental, qui est l’état de langue moderne parlé notamment en Arménie
Ces modèles ont été entraînés avec l’architecture PIE, déjà utilisée pour les autres langues proposées par l’École sur Deucalion. Les modèles font preuve d'une grande polyvalence dans l’annotation d’une large variété de textes dans les différents états de la langue arménienne. Cette intégration de l’arménien dans Deucalion est une étape importante pour la documentation et l’analyse des sources en arménien, qui fait classiquement partie des langues dites peu dotées (numériquement).
Cette intégration a été réalisé de concert avec le projet ANR DALiH (Digitizing Armenian Linguistic Heritage), dirigé par Victoria Khurshudyan (Inalco, SeDyL).
Les modèles sont de plus disponibles en tant que ressources open source, avec une documentation fournie sur Zenodo :
Les modèles ont été entraînés et évalués à partir des Universal Dependencies et sont décrits dans cet article présenté à EMNLP 2024.