Image-to-Image Translation Approach for Page Layout Analysis and Artificial Generation of Historical Manuscripts

Dans Document Analysis and Recognition – ICDAR 2024 Workshops
Éditeur : Springer Nature Switzerland
Pages : 140-158

Consulter la fiche HAL

Résumé

Document layout analysis is essential in Optical Character Recognition (OCR) and Handwritten Text Recognition (HTR), especially for historical and low-resource scripts. This study explores a novel data augmentation technique using Generative Adversarial Networks (GANs) to generate realistic document layouts from semantic masks, enhancing layout analysis without increasing human annotation effort. Our lightweight pipeline, tested on historical manuscripts (Latin, Arabic, Armenian, Hebrew), newspapers, and complex document layouts, shows that GAN-generated layouts are convincing and difficult to distinguish from real ones, even for paleographers. This method significantly boosts data augmentation, yielding a 3% point improvement in layout analysis metrics (precision, recall, mAP), and a 12 point increase in precision and recall for damaged documents. Additionally, masks with character information enhance image quality, boosting text recognition performance.

Disciplines

Humanités numériques

Partager sur les réseaux sociaux

À découvrir

Découvrez d'autres productions de l'École sur les mêmes thématiques.

Humanités numériques

Consulter la page «Humanités numériques»

SegmOnto: A Controlled Vocabulary to Describe and Process Digital Facsimiles

Publication de chercheur
- Simon Gabay,
  Ariane Pinche,
  Kelly Christensen,
  Jean-Baptiste Camps
Intelligence artificielle et institutions patrimoniales

Vidéo
- Emmanuelle Bermès
Enhancing Arabic Maghribi Handwritten Text Recognition with RASAM 2: A Comprehensive Dataset and Benchmarking

Publication de chercheur
- Chahan Vidal-Gorène,
  Clément Salah,
  Noëmie Lucas,
  Aliénor Decours-Perez,
  Antoine Perrier
Cross-Dialectal Transfer and Zero-Shot Learning for Armenian Varieties: A Comparative Analysis of RNNs, Transformers and LLMs

Publication de chercheur
- Chahan Vidal-Gorène,
  Nadi Tomeh,
  Victoria Khurshudyan
Generative Artificial Intelligence and Historical Research: Challenges, Potentials, and Limitations. Application of RAG to French Parliamentary Debates of the Third Republic (1881-1940)

Publication de chercheur
- Aurélien Pellet,
  Julien Perez,
  Marie Puren
Accountable AI for Authentic Records?

Vidéo
Detecting and Deciphering Damaged Medieval Armenian Inscriptions Using YOLO and Vision Transformers

Publication de chercheur
- Chahan Vidal-Gorène,
  Aliénor Decours-Perez
Optimizing HTR and Reading Order Strategies for Chinese Imperial Editions with Few-Shot Learning

Publication de chercheur
- Marie Bizais-Lillig,
  Chahan Vidal-Gorène,
  Boris Dupin
Consulter la page «Humanités numériques»

Nous suivre

Image-to-Image Translation Approach for Page Layout Analysis and Artificial Generation of Historical Manuscripts

Résumé

Résumé

Disciplines

Humanités numériques

Partager sur les réseaux sociaux

À découvrir

Humanités numériques

SegmOnto: A Controlled Vocabulary to Describe and Process Digital Facsimiles

Intelligence artificielle et institutions patrimoniales

Enhancing Arabic Maghribi Handwritten Text Recognition with RASAM 2: A Comprehensive Dataset and Benchmarking

Cross-Dialectal Transfer and Zero-Shot Learning for Armenian Varieties: A Comparative Analysis of RNNs, Transformers and LLMs

Generative Artificial Intelligence and Historical Research: Challenges, Potentials, and Limitations. Application of RAG to French Parliamentary Debates of the Third Republic (1881-1940)

Accountable AI for Authentic Records?

Detecting and Deciphering Damaged Medieval Armenian Inscriptions Using YOLO and Vision Transformers

Optimizing HTR and Reading Order Strategies for Chinese Imperial Editions with Few-Shot Learning