Réflexions et retours d’expérience sur l’intégration de l’ATR dans le cadre la plateforme d’appui à la recherche Estrades

  • Titouan Brisset Saboureau (projet CISAME - Unistra)
  • Guillaume Porte (ARCHE UMR 3400 - Unistra)
  • Elsa Van Kote (PHuN - MISHA)

Nancy, 10 septembre 2024


idex

CC BY

Estrades : présentation

  • plateforme d’appui à la recherche qui propose des “Solutions de TRanscription, d’Analyse et de Diffusion pour l’Edition Structurée”.

  • portée par l’ARCHE UMR 3400 (Unistra) et la MISHA, avec le soutien de la BNU et du ILLE (UHA)

  • menée par un petit groupe d’ingénieur.e.s de l’Unistra (labos, DNUM, SBU), de la MISHA et de la BNU

  • débutée en 2020, labellisée par Cortecs en 2023, prix Idex en 2024, candidature en cours auprès du RnMSH (Scripto)

  • estrades.huma-num.fr

CC BY

Estrades : constats

  • importance du principe de chaîne éditoriale

  • beaucoup d’étapes = compétences nécessaires nombreuses

  • temps projet et financements consacrés à des développements secondaires plutôt qu’à la recherche

  • multiplication des outils, des solutions, des systèmes, des codes sources = problèmes de maintenance / de maîtrise / de sobriété

  • personnels titulaires débordés / personnels précaires souvent isolés et/ou aux 18 casquettes

  • des institutions/services plus concurrents que complémentaires

image

CC BY

Estrades : propositions

  • proposer une suite d’outils pour augmenter la maintenabilité et proposer une base technique commune

  • utiliser au maximum les outils existants* et concentrer les développements sur les connecteurs**

  • identifier les personnes au niveau local pour travailler en réseau & inclure au maximum les personnels précaires dans les dynamiques collectives

  • tenter aussi de mutualiser une partie des moyens des projets


  • * GitLab, escriptorium, MaX… et bientôt TACTEO ?
  • ** Heimdall

image

CC BY

Cisame : objectifs et défis

  1. Exploration des interactions entre les savoirs au XIIe siècle

    • Étude des relations entre différents domaines de connaissance tels que le droit, la théologie, et la philosophie.
  2. Analyse d’un large corpus de manuscrits

    • Objectif de fournir une vue d’ensemble des interactions entre ces savoirs avant leur formalisation en disciplines distinctes.
  3. Problèmes rencontrés

    • Création de modèles : développement de chaînes de traitement complexes, difficiles à maîtriser et à transposer d’un projet à un autre.

image

CC BY

Cisame : la question de l’ATR

  1. Création de modèles via eScriptorium (avril 2023)

    • Tentatives sur les serveurs de l’INRIA : défis techniques et temps d’attente prolongés.
  2. Utilisation de Kraken (juin 2023)

    • Sur ordinateur personnel pour un usage local.
  3. Implémentation de Kraken sur le centre de calcul de l’Université de Strasbourg (juillet 2023)

    • Réalisée avec l’aide de la PHuN et du pôle César pour bénéficier de la puissance de calcul nécessaire.

image image

CC BY

Cisame : un besoin ATR partagé

  1. Réflexion déjà en cours Estrades/BNU

    • Collaboration et partage de ressources pour des besoins communs en reconnaissance de texte manuscrit
    • Evaluation de la solution FONDUE en 2022 non retenue pour des questions RH
    • Première instance escriptorium (2023 - VM 8 vcpu / 256Go de stockage / 32Go de RAM)
  2. Enseignement et formations

    • Utilisation d’escriptorium dans le cadre de la formation initiale : faculté des sciences historiques (master d’études médiévales interdisciplinaire) et faculté des langues
  3. Autres projets de chercheurs et chercheuses

    • Besoin d’ATR pour divers projets académiques (herbier de l’Institut de Botanique… )
CC BY

Cisame : état actuel

  1. Développement en cours de l’ATR à Strasboug

    • projet qui a permis de mettre en place le moteur kraken au centre de calcul de l’Unistra et de développer l’utilisation de l’instance escriptorium.
  2. Réflexion juridique

    • création d’une charte avec la BNU sur des questions juridiques pour l’utilisation d’éditions récentes pas encore libres de droit.
  3. Une insertion en cours dans la chaîne de traitement

    • intérêt du projet pour le reste de la chaîne notamment la partie édition numérique associée à des bases de données relationnelles.
CC BY

ATR : escriptorium

  • Instance maintenue par la DNUM (pôle CESAR - Virgile Jarrige) et administrée par le Lab de la BNU (Madeleine Hubert, Elisa Michelet) - https://escriptorium.unistra.fr/

  • Limites : plateforme principalement utilisée pour des besoins simples et de la formation (pas d’entraînement de modèles ou de fine-tuning à ce stade)

  • Perspectives : des solutions plus complètes, comme celles proposées à Genève ou à l’INRIA, ne sont pas encore exclues si les besoins et les moyens grandissent.

image

CC BY

ATR : Kraken

  • Installation d’une instance Kraken sur le centre de calcul de l’Unistra par la DNUM (pôle CESAR - David Brusson), offrant une grande puissance de calcul.

  • Connexion via SSH.

  • Jusqu’à présent, les besoins en ATR n’ont pas nécessité de coûts supplémentaires pour l’utilisation du centre de calcul. Les demandes sont traitées en fonction de la disponibilité du centre de calcul (autrement appels à projets DNUM).

  • Une documentation est en cours de rédaction pour les utilisateurs et utilisatrices.

image

CC BY

ATR : transformation en TEI et édition numérique

  1. Création de feuilles XSLT PAGE vers TEI

    • Interopérabilité possible grâce à l’utilisation de l’ontologie Segmonto.
  2. Retour à la chaîne éditoriale

    • Format TEI et indexation dans BaseX pour raccrocher à la chaîne éditoriale
    • Exploration des résultats via le moteur d’affichage MaX (PDN Caen).

image

CC BY

Constat et questions

  • fort intérêt pour les interfaces

  • au contraire, utilisation assez faible de kraken en dehors de CISAME et de la BNU

  • allouer plus de puissance a escriptorium ? (maintenance et administration)

  • orienter vers d’autres solutions similaires (instance Inria) ou privées (Calfa, Transkribus, Teklia… question des coûts et de la réutilisabilité des modèles)

  • développer la formation sur kraken / améliorer les scripts PAGE/ALTO -> TEI

CC BY

Constat et questions

  • fort intérêt pour les interfaces

  • au contraire, utilisation assez faible de kraken en dehors de CISAME et de la BNU

  • allouer plus de puissance a escriptorium ? (maintenance et administration)

  • orienter vers d’autres solutions similaires (instance Inria) ou privées (Calfa, Transkribus, Teklia… question des coûts et de la réutilisabilité des modèles)

  • développer la formation sur kraken / améliorer les scripts PAGE/ALTO -> TEI

CC BY