EVEille 2022 - CR de la séance “Acquisition”
La session 2 de la deuxième journée du 11 février 2022 a été consacrée au processus d’acquisition d’un document original et plus précisément à sa transformation en plusieurs formats en vue de son analyse structurée, de sa publication, d’un stockage pérenne et de sa réutilisation. L’acquisition désigne le passage d’un document original à un document numérique structuré. Dans le cadre d’une édition scientifique, l’acquisition implique une transcription qui transforme le document original dans un nouveau format permettant sa diffusion. Le processus de transcription est aujourd’hui accéléré par des technologies comme l’HTR et l’OCR. Dans l’optique des principes FAIR et dans la perspective du plan pour la science ouverte, l’usage de ces technologies demandent une certaine maîtrise. En effet, si ces instruments assurent des résultats plus efficaces, il faut naturellement s’interroger sur les limites et sur les inconvénients qu’ils imposent.
Ces aspects ont été abordés par les deux intervenants de la séance, Peter Stokes (directeur d’études en humanités numériques et computationnelles appliquées à l’étude de l’écrit ancien et chargé de mission pour les humanités numériques à l’École Pratique des Hautes Études) et Simon Gabay (maître assistant en humanités numériques à l’Université de Genève). Peter Stokes a présenté l’outil eScriptorium, dont l’objectif est de fournir un cadre dans lequel organiser et transcrire des documents manuscrits (en particulier les documents anciens), afin que les résultats de la transcription soient disponibles pour une utilisation savante et numérique. Lors de sa présentation, Peter Stokes a mis l’accent sur l’usage pratique, sur les enjeux, sur les contraintes de cet outil qui comporte un flux de travail important axé sur différentes étapes (import des images via IIIF, segmentation et transcription des images à l’aide de kraken où à la main) et toute une série de défis qu’un système HTR peut impliquer, surtout au niveau des enjeux de l’interopérabilité.
De son côté, Simon Gabay s’est intéressé à la question des formats, de leur intégration dans un environnement global de la recherche, de l’édition et de la conservation. Il a focalisé son attention sur la possibilité d’intégrer eScriptorium afin d’arriver à constituer un document TEI de qualité avec toutes les informations possibles. Simon Gabay a présenté, à cet égard, l’outil SegmOnto, vocabulaire contrôlé pour décrire une page manuscrite et imprimée. Cet outil favorise l’analyse de la mise en page et permet d’extraire des informations pour constituer plus finement le document en XML-TEI. Son efficacité réside notamment dans le fait que cet instrument arrive à mélanger les différentes données présentées jusqu’à améliorer le modèle général.