Après des études en mathématiques et en langues orientales, Chahan Vidal-Gorène s’est spécialisé dans l’intelligence artificielle (IA) et vision par ordinateur appliquée au patrimoine. Ses recherches portent sur la reconnaissance automatique des écritures manuscrites non latines, l’extraction d’informations d’images patrimoniales (modélisation 3D d’édifices, œuvres d’art, etc.) et l’analyse textuelle de langues anciennes ou orientales (arménien, syriaque, géorgien, hourrite, grec byzantin, éthiopien, arabe). Sa thèse s’intéresse en particulier à des questions de paléographie arménienne computationnelle et de simulation des écritures.
Membre du bureau du consortium Huma-Num DISTAM (DIgital STudies Africa, Asia, Middle East) qui soutient la recherche en humanités numériques pour les graphies non latines et les études aréales, il est aussi engagé, au sein de l’ANR DALiH, sur le transfert de LLM vers les langues peu dotées (arménien, arabe) et la gestion de la variation dialectale en IA. Chahan Vidal-Gorène est engagé au sein du master humanités numériques depuis 2017 où il enseigne la programmation et les mathématiques pour la DataScience.
Il est le président-fondateur de Calfa, startup spécialisée depuis 2014 dans l’analyse et le traitement de documents en langues orientales et qui intervient notamment au Proche-Orient auprès des institutions patrimoniales pour la valorisation numérique des collections écrites. Il a reçu en 2019, dans ce cadre, le prix de l’innovation pour le patrimoine de la Fédération française des Telecoms.
Recherche
Questions de paléographie arménienne : l'évolution de l’écriture à travers l'étude des fragment
La paléographie arménienne est une discipline récente, qui émerge à la fin du XIXe avec le Père mekhitariste Yakovbos Tašean. Il est le premier à réellement proposer une description détaillée des lettres arméniennes, une classification et une théorie argumentée de leur évolution qui, selon l’historien du Ve siècle Koriwn, ont été inventées par Mesrop Machtots en 405 ap. J.-C. De nombreux auteurs ont depuis discuté et enrichi ses travaux. On peut ainsi citer les plus notables : Hrač‛eay Ačaṙean (1928), Ašot Abrahamyan (1940, 1958, 1973), et surtout Dickran Kouymjian et Michael Stone (2002) qui se sont intéressés à 193 extraits de manuscrits complets et datés dans leur monumental et très précieux album de paléographie arménienne.
Toutefois, ces auteurs ne se sont intéressés qu’à des manuscrits datés. Or, entre l’invention supposée de l’alphabet arménien en 405 ap. J.-C et le premier manuscrit daté de 862, il y a un hiatus de plus de 450 ans. Durant cette période, nous n’avons que des inscriptions lapidaires, et des fragments de manuscrits. Les conclusions, souvent disputées, sur l’évolution de l’écriture, la terminologie à employer et les critères de datation, ainsi que les théories de l’évolution souffrent donc de cette lacune. L’originalité de notre recherche repose en particulier dans l’étude de ces fragments de manuscrits, notamment les palimpsestes antérieurs au ixe siècle pour combler ce hiatus, avec une vision globale des caractères manuscrits arméniens grâce aux bases de données du Calfa.fr. Elle se place dans une démarche de comparaison et de mise en perspective avec la paléographie latine, discipline où les typologies sont désormais établies, et les méthodes d’étude éprouvées.
Cette recherche poursuit plusieurs objectifs. Il s’agit d’une part d’apporter un éclairage nouveau sur l’écriture arménienne et de renouveler la façon d’appréhender les manuscrits arméniens, en disposant d’une terminologie sûre, d’une représentation du développement des lettres et de l’évolution de l’écriture arménienne, ainsi que de critères permettant la datation des manuscrits. D’autre part, nous nous proposons d’étudier les critères strictement paléographiques permettant de simplifier les problèmes de reconnaissance automatique de l’écriture manuscrite. La thèse s’inscrit ainsi dans une démarche pluridisciplinaire, en incluant également les champs des sciences cognitives et de l’intelligence artificielle.
Thèse co-dirigée par Marc Smith (École des chartes) et Aram Mardirossian (EPHE).
Champ(s) de recherche
- Analyse automatique des documents et HTR
- Applications du TAL aux langues peu dotées et graphies orientales
- Paléographie numérique et computationnelle
- Paléographie arménienne
- Restauration artificielle de manuscrits
Projet de recherche en cours : Les Passés Artificiels / Artificial Pasts: Lost Texts and Manuscripts that never were (PR[AI]RIE Institute)
Actualité(s)
Agenda
The 4th International Conference on Natural Language Processing for Digital Humanities
Agenda des enseignants-chercheurs
Intervention portant sur la comparaison de différents types de modèles d’intelligence artificielle et différences approches pour l’analyse linguistique des différentes variantes et dialectes de l’arménien.
Vision par ordinateur et patrimoine arménien écrit
Agenda des enseignants-chercheurs
Intervention lors du colloque « Les humanités numériques et l’Orient chrétien médiéval », organisé par l’université Paul-Valéry de Montpellier.
International Conference on Document Analysis and Recognition
Agenda des enseignants-chercheurs
Jean-Baptiste Camps et Chahan Vidal-Gorène présentent des articles à l’ICDAR 2024 (International Conference on Document Analysis and Recognition), qui rassemble la communauté scientifique engagée sur l’analyse automatique des documents, du 30 août au 4 septembre 2024, à Athènes.
Publication(s)
Enhancing Arabic Maghribi Handwritten Text Recognition with RASAM 2: A Comprehensive Dataset and Benchmarking
Publication de chercheur
Communication dans un congrès Nouveauté
- Date de parution : 2024
Cross-Dialectal Transfer and Zero-Shot Learning for Armenian Varieties: A Comparative Analysis of RNNs, Transformers and LLMs
Publication de chercheur
Communication dans un congrès Nouveauté
- Date de parution : 2024
Image-to-Image Translation Approach for Page Layout Analysis and Artificial Generation of Historical Manuscripts
Publication de chercheur
Chapitre d’ouvrage
- Date de parution : 2024