Réflexions et retours d’expérience sur l’intégration de l’ATR dans le cadre la plateforme d’appui à la recherche Estrades
- Titouan Brisset Saboureau (projet CISAME - Unistra)
- Guillaume Porte (ARCHE UMR 3400 - Unistra)
- Elsa Van Kote (PHuN - MISHA)
Nancy, 10 septembre 2024
Estrades : présentation
plateforme d’appui à la recherche qui propose des “Solutions de TRanscription, d’Analyse et de Diffusion pour l’Edition Structurée”.
portée par l’ARCHE UMR 3400 (Unistra) et la MISHA, avec le soutien de la BNU et du ILLE (UHA)
menée par un petit groupe d’ingénieur.e.s de l’Unistra (labos, DNUM, SBU), de la MISHA et de la BNU
débutée en 2020, labellisée par Cortecs en 2023, prix Idex en 2024, candidature en cours auprès du RnMSH (Scripto)
Estrades : constats
importance du principe de chaîne éditoriale
beaucoup d’étapes = compétences nécessaires nombreuses
temps projet et financements consacrés à des développements secondaires plutôt qu’à la recherche
multiplication des outils, des solutions, des systèmes, des codes sources = problèmes de maintenance / de maîtrise / de sobriété
personnels titulaires débordés / personnels précaires souvent isolés et/ou aux 18 casquettes
des institutions/services plus concurrents que complémentaires
Estrades : propositions
proposer une suite d’outils pour augmenter la maintenabilité et proposer une base technique commune
utiliser au maximum les outils existants* et concentrer les développements sur les connecteurs**
identifier les personnes au niveau local pour travailler en réseau & inclure au maximum les personnels précaires dans les dynamiques collectives
tenter aussi de mutualiser une partie des moyens des projets
- * GitLab, escriptorium, MaX… et bientôt TACTEO ?
- ** Heimdall
Cisame : objectifs et défis
Exploration des interactions entre les savoirs au XIIe siècle
- Étude des relations entre différents domaines de connaissance tels que le droit, la théologie, et la philosophie.
Analyse d’un large corpus de manuscrits
- Objectif de fournir une vue d’ensemble des interactions entre ces savoirs avant leur formalisation en disciplines distinctes.
Problèmes rencontrés
- Création de modèles : développement de chaînes de traitement complexes, difficiles à maîtriser et à transposer d’un projet à un autre.
Cisame : la question de l’ATR
Création de modèles via eScriptorium (avril 2023)
- Tentatives sur les serveurs de l’INRIA : défis techniques et temps d’attente prolongés.
Utilisation de Kraken (juin 2023)
- Sur ordinateur personnel pour un usage local.
Implémentation de Kraken sur le centre de calcul de l’Université de Strasbourg (juillet 2023)
- Réalisée avec l’aide de la PHuN et du pôle César pour bénéficier de la puissance de calcul nécessaire.
Cisame : un besoin ATR partagé
Réflexion déjà en cours Estrades/BNU
- Collaboration et partage de ressources pour des besoins communs en reconnaissance de texte manuscrit
- Evaluation de la solution FONDUE en 2022 non retenue pour des questions RH
- Première instance escriptorium (2023 - VM 8 vcpu / 256Go de stockage / 32Go de RAM)
Enseignement et formations
- Utilisation d’escriptorium dans le cadre de la formation initiale : faculté des sciences historiques (master d’études médiévales interdisciplinaire) et faculté des langues
Autres projets de chercheurs et chercheuses
- Besoin d’ATR pour divers projets académiques (herbier de l’Institut de Botanique… )
Cisame : état actuel
Développement en cours de l’ATR à Strasboug
- projet qui a permis de mettre en place le moteur kraken au centre de calcul de l’Unistra et de développer l’utilisation de l’instance escriptorium.
Réflexion juridique
- création d’une charte avec la BNU sur des questions juridiques pour l’utilisation d’éditions récentes pas encore libres de droit.
Une insertion en cours dans la chaîne de traitement
- intérêt du projet pour le reste de la chaîne notamment la partie édition numérique associée à des bases de données relationnelles.
ATR : escriptorium
Instance maintenue par la DNUM (pôle CESAR - Virgile Jarrige) et administrée par le Lab de la BNU (Madeleine Hubert, Elisa Michelet) - https://escriptorium.unistra.fr/
Limites : plateforme principalement utilisée pour des besoins simples et de la formation (pas d’entraînement de modèles ou de fine-tuning à ce stade)
Perspectives : des solutions plus complètes, comme celles proposées à Genève ou à l’INRIA, ne sont pas encore exclues si les besoins et les moyens grandissent.
ATR : Kraken
Installation d’une instance Kraken sur le centre de calcul de l’Unistra par la DNUM (pôle CESAR - David Brusson), offrant une grande puissance de calcul.
Connexion via SSH.
Jusqu’à présent, les besoins en ATR n’ont pas nécessité de coûts supplémentaires pour l’utilisation du centre de calcul. Les demandes sont traitées en fonction de la disponibilité du centre de calcul (autrement appels à projets DNUM).
Une documentation est en cours de rédaction pour les utilisateurs et utilisatrices.
ATR : transformation en TEI et édition numérique
Création de feuilles XSLT PAGE vers TEI
- Interopérabilité possible grâce à l’utilisation de l’ontologie Segmonto.
Retour à la chaîne éditoriale
- Format TEI et indexation dans BaseX pour raccrocher à la chaîne éditoriale
- Exploration des résultats via le moteur d’affichage MaX (PDN Caen).
Constat et questions
fort intérêt pour les interfaces
au contraire, utilisation assez faible de kraken en dehors de CISAME et de la BNU
allouer plus de puissance a escriptorium ? (maintenance et administration)
orienter vers d’autres solutions similaires (instance Inria) ou privées (Calfa, Transkribus, Teklia… question des coûts et de la réutilisabilité des modèles)
développer la formation sur kraken / améliorer les scripts PAGE/ALTO -> TEI
Constat et questions
fort intérêt pour les interfaces
au contraire, utilisation assez faible de kraken en dehors de CISAME et de la BNU
allouer plus de puissance a escriptorium ? (maintenance et administration)
orienter vers d’autres solutions similaires (instance Inria) ou privées (Calfa, Transkribus, Teklia… question des coûts et de la réutilisabilité des modèles)
développer la formation sur kraken / améliorer les scripts PAGE/ALTO -> TEI