Principes
Cadre
On entend par édition structurée un ensemble de pratiques visant à transformer un texte numérisé ou nativement numérique en un jeu de données exploitable et manipulable par des outils et langages informatiques, qu’il s’agisse d’en tirer des représentations graphiques, des analyses qualitatives ou quantitatives, ou encore des formats de publication.
Dans le cadre d’Estrades, ces textes sont des sources historiques ou littéraires, anciennes ou modernes, manuscrites ou imprimées, dans diverses graphies et diverses langues, qui font l’objet d’une « édition » au sens d’analyse critique, philologique ou génétique. Ainsi, la plateforme ne propose pas des solutions pour la publication d’articles ou d’ouvrages issus de la recherche1, mais s’intéresse plutôt à l’exposition et à la mise à disposition des données permettant cette recherche. Malgré des passerelles entre ces deux approches éditoriales, la finalité et la matière première de chacune impliquent des méthodes, des compétences et des outils différents. On retrouve d’ailleurs cette distinction entre deux plateformes issues de la MRSH de Caen et qui servent de modèles : l’infrastructure Métopes (dont les outils sont utilisés notamment par les Presses universitaires de Strasbourg et l’Ouvroir) et le Pôle Document Numérique (dont les propositions ont servi de point de départ à Estrades).
En amont de ce travail d’édition se situe une phase d’acquisition, qui peut être manuelle ou semi-automatisée. Ces dernières années, les progrès de l’intelligence artificielle ont permis une amélioration conséquente des systèmes d’OCR (Optical Character Recognition) et d’HTR (Handwritten Text Recognition). Ces possibilités laissent envisager de nouvelles manières d’appréhender l’édition structurée et le traitement de jeux de données textuels massifs, et peuvent renouveler les relations entre recherche, conservation patrimoniale et centres de calcul.
L’édition structurée et l’analyse textuelle qui est rendue possible par ce processus sont des pratiques répandues dans plusieurs domaines de recherche en sciences humaines (histoire, littérature, linguistique, philologie, paléographie, etc.), d’autant plus dans un contexte de multiplication de projets en humanités numériques. Estrades s’inspire largement de projets fondamentaux pour ce champ d’étude et d’expertise. Plus largement, ces pratiques convergent à l’échelle internationale autour de projets comme celui du consortium TEI qui a permis de définir un vocabulaire commun aux mondes de la recherche, de l’édition et de la conservation patrimoniale.
Besoins et enjeux
L’offre de service proposée par Estrades n’était jusqu’alors actuellement pas disponible en Alsace et ne l’est que dans quelques grands centres en France (MRSH de Caen, université PSL, CESR, MSH Val-de-Loire, ENS Lyon, IRHT, INRIA, etc.). Or ces équipes ne peuvent absorber l’intégralité d’une demande croissante émanant des équipes de recherche et des institutions patrimoniales. Les équipes alsaciennes sont donc en grande partie dépourvues de l’accès à ces technologies. Cette remarque concerne aussi des fédérations nationales de chercheur.euse.s, telles que le consortium DISTAM, dont la particularité porte sur le traitement des langues et écritures d’Afrique, d’Asie, du Proche et Moyen-Orient, avec lequel Estrades entretient des liens étroits.
L’édition structurée et l’HTR restent des délicates voire difficiles à mettre en œuvre. Actuellement, aucune solution clé en main n’existe vraiment : c’est en tout cas l’une des conclusions du groupe de travail TEI-Nakala présentées lors des journées EVEille et aux correspondants Huma-Num en 2022. Les principales conséquences sont : - Un coût d’entrée élevé pour des projets non financés, des chercheur.euse.s ou des étudiant.e.s isolé.e.s, en termes de formation à l’environnement technique, et un décalage important entre la formation à des outils et la possibilité de se les approprier ; - pour les projets financés, des développements ad hoc réalisés au détriment du temps de recherche, bien souvent par méconnaissance des solutions existantes ou à cause du caractère insuffisamment réutilisable des solutions retenues ; - une incapacité pour les acteurs présents de faire face à l’augmentation de la demande sur le plan national ; - une offre privée concurrentielle, notamment dans le domaine de l’HTR, qui redirige les services à la recherche – et ses financements – vers l’extérieur, tout en opacifiant une partie du processus ; - en lien, un certain éparpillement technologique qui rend délicate la maintenance des productions sur le long terme et contribue à une sur-utilisation de certaines ressources (électricité, bande passante, stockage, etc.) ; - l’étendue des compétences nécessaires face au manque de postes de soutien à la recherche qui ne permet pas à ce type d’initiatives de dépasser le cadre du projet ou du laboratoire initial.
Offre et solutions
Plateforme d’accompagnement et de propositions
En tant que plateforme, Estrades propose de répondre à ces principaux problèmes de différentes manières : - La mise en place d’une chaîne de production complète comprenant des outils permettant utilisables par des personnes en cours de formation ou ayant une formation minimale aux principes de l’édition structurée ; - un support, par l’équipe de la plateforme, pour des projets de recherches financés, qui pourront s’appuyer sur l’infrastructure commune afin de réduire les coûts de développement initiaux et de maintenance pour se concentrer sur leurs besoins plus spécifiques ; - la prise en charge des éléments propres à la science ouverte et aux principes FAIR afin de renforcer les PGD2 des projets de recherche (DOI, entrepôts de données, vocabulaires recommandés, licences de réutilisation pour les données et le code, etc.) ; - l’utilisation de logiciels open source soutenus et connus de la communauté et, en retour, la participation à l’enrichissement de ces logiciels ou le développement de nouvelles solutions et, in fine, un resserrement technologique, préalable à une meilleure gestion des ressources à notre disposition ; - la mise en place d’un volet formation, à destination des équipes de recherche ou des étudiant.e.s ; - la participation active aux réseaux nationaux - une implantation et un service à l’échelle locale et régionale (universités de Strasbourg et de Haute-Alsace, MISHA et BNU dans un premier temps) ; - l’organisation et la mise en relation des compétences locales existantes afin d’adosser la chaîne à plusieurs services et de mutualiser les efforts et les moyens ; - des solutions proposées dans le cadre de projets scientifiques ou d’ingénierie avec des structures de recherche extérieures ainsi qu’à destination des institutions de conservation patrimoniale (bibliothèques et archives).
Chaîne de production
Estrades ne se limite pas à un pôle de compétences. La plateforme propose également la mise en place d’une chaîne de production de bout en bout, depuis l’acquisition des données jusqu’à leur diffusion et leur réutilisation, en passant par leur enrichissement et leur analyse, dans une démarche FAIR et de science ouverte. Les solutions envisagées peuvent être découpées en 5 étapes (fig. 1) :
Fig. 1 : Estrades : schéma de fonctionnement général.
- (1) acquisition (en gris) : numérisation et dématérialisation du texte, au moyen d’outils d’aide à la transcription manuelle ou semi-automatisée (OCR, HTR). En l’état actuel, cette partie de la chaîne fait l’objet d’expérimentations, et son développement sera justement soumis à la consolidation de la plateforme et de ses financements ;
- (2) enrichissement (en bleu) : transformation des jeux de données obtenus de manière à y apporter les métadonnées de description et la structuration préalables aux deux phases suivantes ;
- (3) analyse (en vert) : utilisation de logiciels ou de scripts spécifiques à l’approche scientifique et au besoin du projet ou de l’utilisateur.ice. Il faut noter que cette partie est – par définition – la moins générique de la chaîne puisqu’il s’agit de la plus orientée vers la recherche (celle pour laquelle le reste de la chaîne est nécessaire). Quelques outils seront proposés par défaut, mais l’essentiel sera à définir en fonction du projet ;
- (4) diffusion (en orange) : re-matérialisation du texte par des transformations automatiques de manière à l’envoyer vers différents supports (sites web, impression, entrepôts de données, catalogues en ligne, etc.) ;
- (5) réutilisation (en rouge) : application des principes FAIR et de science ouverte pour favoriser la conservation sur le long terme et la réutilisation des données brutes produites.