Transcribathon-platformen, der blev lanceret i 2016, er blevet videreudviklet af to projekter inden for generiske tjenester: Enrich Europeana (2018-2020) og Enrich Europeana Plus (2021-2023). Platformen giver frivillige mulighed for at transskribere håndskrevne historiske tekster på forskellige sprog og fra forskellige historiske perioder uden brug af andet end deres computer. Siden projekterne blev iværksat, er over 372 000 dokumenter blevet transskriberet af frivillige og omdannet til digitale tekstfiler, hvilket har bidraget til at udvide og berige Europeanas enorme samlinger af digitale kulturarvsgenstande.
I 2021 begyndte Enrich Europeana Plus-projektet at opdatere Transcribathon-platformen med avanceret håndskriftgenkendelsesteknologi, som anvender kunstig intelligens til at levere automatiske transskriptioner, som derefter kan kontrolleres af frivillige. En af de største udbydere af denne teknologi er READ-COOP, et europæisk andelsselskab, der forvalter den populære Transkribus-software. Enrich Europeana Plus brugte flere måneder på at arbejde med READ-COOP og indarbejde deres teknologi i Transcribathon-platformen.
Sammenkædning af Transcribathon med API'en "metagrapho"
Transkribus-softwaren, der er udviklet som led i et EU-finansieret projekt under ledelse af universitetet i Innsbruck, gør det muligt automatisk at transskribere historiske håndskrevne dokumenter i stor skala. Teknologien anvender kunstig intelligens til at "lære", hvordan man læser bestemte typer håndskrift, og implementerer derefter denne viden for at skabe automatiske transskriptioner af tekster. Dette fremskynder dramatisk transskriptionsprocessen: transkriberen ikke længere behøver at bruge timer på at skrive en transskription fra bunden, da de kan korrekturlæse den automatiske transskription i stedet.
Håndskrift anerkendelse teknologi som Transkribus er især ideel til borgervidenskabelige projekter. Jo lettere det er at transskribere disse dokumenter, jo flere dokumenter kan de frivillige behandle inden for en bestemt tidsramme, og jo hurtigere kan Europeanas websted beriges. Transcribathon-teamet var derfor ivrige efter at implementere denne teknologi i platformen.
For at gøre dette besluttede de at anvende READ-COOP's metagrapho API for at gøre det muligt for Transcribathon at få adgang til Transkribus-teknologien. En API er et stykke software, der fungerer som en budbringer mellem to forskellige platforme. Nogen anmoder om oplysninger på én platform, og platformen sender denne anmodning til API'en på en anden platform. Når denne anden platform har et svar på anmodningen, bringer API'en den tilbage til den første platform, og personen får de oplysninger, de har brug for.
Transcribathon-platformen bruger metagrapho API på præcis denne måde. Når en frivillig ønsker at få en automatisk transskription af en tekst, anmoder de om dette på Transcribathon-platformen. Transcribathon sender derefter denne anmodning til metagrapho API, som bruger håndskrift anerkendelse teknologi til at behandle billedet og generere en automatisk transskription. Endelig, når behandlingen er afsluttet, kan Transcribathon-platformen få adgang til transskriptionen og vise den til volontøren, igen via metagrapho API.
Metagrapho API giver ikke kun transskriptionen, men også koordinaterne for hver linje eller endda ord, der findes i billedet - noget, der ikke var muligt i den gamle version af Transcribathon. Denne funktion gør det muligt derefter at bruge transskriptionerne til yderligere applikationer, såsom at fremhæve matchende søgeord i teksten under en fuldtekstsøgning.
En forbedret transskriptionseditor
Opdatering af teknologien bag Transcribathon betød, at transskriptionseditoren - den del en frivillig bruger til at indtaste deres transskriptioner - ikke længere var i stand til at klare det rigere dataformat, som den modtog tilbage fra metagrapho API. Derfor byggede READ-COOP en brugerdefineret transskriptionseditor til Transcribathon. Dette gør det muligt for folk at klikke på en linje af transskriptionen, og se den tilsvarende linje i billedet af teksten.
For at fremskynde processen tog READ-COOP den eksisterende editor i Transkribus-softwaren, ændrede den til at passe til kravene i Transcribathon og gjorde den til en widget. Widgeten blev derefter blot indsat i Transcribathon-platformen, hvilket gør det muligt for brugerne at få adgang til og redigere de transskriptioner, der genereres af metagrapho API. Ved at bruge den eksisterende Transkribus-editor og blot ændre den sparede du også dyrebar udviklingstid og omkostninger.
Styrken ved samarbejde
Disse teknologiske opdateringer tager Transcribathon til det næste niveau. I stedet for at skabe tidskrævende transskriptioner fra bunden, kan frivillige nu blot rette automatisk genererede transskriptioner i den nye transskriptionseditor, hvilket hjælper dem med at behandle mange flere dokumenter under et løb.
READ-COOP er i øjeblikket ved at træne de håndskrevne tekstgenkendelses-AI-modeller på grundlag af materiale, der allerede er transskriberet, eller for materiale, der snart skal transskriberes, i Transcribathon. Jo bedre AI-modellen er tilpasset det materiale, der er i fokus, jo mere nøjagtige vil de automatiske transskriptioner være.
For eksempel vil en kommende Transcribathon Run indeholde scanninger af rationskort fra statsarkivet i Zagreb, som blev brugt under anden verdenskrig (fra 1941 1945.) som en form for rationering af mad og andre ressourcer. Kortene indeholder demografiske og socioøkonomiske indikatorer for enkeltpersoner og/eller husholdninger som titler, job og er derfor en rig kilde til forskningsmateriale.
Som forberedelse til dette løb afholdt READ-COOP et webinar med arkivets medarbejdere for at vise dem, hvordan man forbereder træningsdata. Disse træningsdata vil derefter blive brugt til at træne en håndskriftsmodel eller "lære" motoren, hvordan man læser dokumenter af denne type, så den kan give mere nøjagtige transskriptioner under kørslen. Dette bør sammen med de frivilliges korrekturlæsningsfærdigheder gøre det muligt for Zagrebs arkiv at digitalisere et større antal dokumenter end nogensinde før.
Læs mere
Du kan se webinaret om, hvordan du udarbejder uddannelsesdata, i denne video. Du finder integrationen af editoren til automatisk håndskrevet tekstgenkendelse på Transcribathon-platformen og kan se de første resultater fra Dublin-papirerne.
Dette indlæg er skrevet af Fiona Park, Content Manager READ-COOP SCE, og Philip Kahle, Software Developer, READ COOP.
