Het Transcribathon-platform, dat in 2016 werd gelanceerd, is verder ontwikkeld door twee Generic Services-projecten: Enrich Europeana (2018-2020) en Enrich Europeana Plus (2021-2023). Het platform stelt vrijwilligers in staat om handgeschreven historische teksten in verschillende talen en uit verschillende historische periodes te transcriberen, met behulp van niets meer dan hun computer. Sinds de start van de projecten zijn meer dan 372.000 documenten door vrijwilligers getranscribeerd en omgezet in digitale tekstbestanden, wat heeft bijgedragen tot de uitbreiding en verrijking van de uitgebreide collecties digitaal cultureel erfgoed van Europeana.
In 2021 is het Enrich Europeana Plus-project begonnen met het bijwerken van het Transcribathon-platform met geavanceerde technologie voor handschriftherkenning, waarbij gebruik wordt gemaakt van kunstmatige intelligentie om automatische transcripties te leveren die vervolgens door vrijwilligers kunnen worden gecontroleerd. Een van de grootste aanbieders van dergelijke technologie is READ-COOP, een Europese coöperatieve vennootschap die de populaire Transkribus-software beheert. Enrich Europeana Plus werkte enkele maanden met READ-COOP en nam hun technologie op in het Transcribathon-platform.
Transcribathon koppelen aan de “metagrapho”-API
De software van Transkribus, ontwikkeld in het kader van een door de EU gefinancierd project onder leiding van de Universiteit van Innsbruck, maakt het mogelijk om historische handgeschreven documenten op grote schaal automatisch te transcriberen. De technologie gebruikt AI om specifieke soorten handschrift te “leren” lezen en implementeert deze kennis vervolgens om automatische transcripties van teksten te maken. Dit versnelt het transcriptieproces drastisch: de transcriber hoeft niet langer uren te besteden aan het schrijven van een transcriptie vanaf nul, omdat hij in plaats daarvan de automatische transcriptie kan proeflezen.
Handschriftherkenningstechnologie zoals Transkribus is met name ideaal voor burgerwetenschappelijke projecten. Hoe gemakkelijker het is om die documenten te transcriberen, hoe meer documenten de vrijwilligers in een bepaald tijdsbestek kunnen verwerken en hoe sneller de Europeana-website kan worden verrijkt. Het team van Transcribathon wilde deze technologie dan ook graag in het platform implementeren.
Daartoe hebben zij besloten de metagrapho-API van READ-COOP te gebruiken om Transcribathon in staat te stellen toegang te krijgen tot de Transkribus-technologie. Een API is een stukje software dat fungeert als een boodschapper tussen twee verschillende platforms. Iemand vraagt informatie op het ene platform en het platform stuurt dit verzoek naar de API van een ander platform. Zodra dit tweede platform een antwoord heeft op het verzoek, brengt de API het terug naar het eerste platform en krijgt de persoon de informatie die hij nodig heeft.
Het Transcribathon-platform gebruikt de metagrapho API precies op deze manier. Wanneer een vrijwilliger een automatische transcriptie van een tekst wil ontvangen, vragen ze dit aan op het Transcribathon-platform. Transcribathon stuurt dit verzoek vervolgens naar de metagrapho API, die handschriftherkenningstechnologie gebruikt om het beeld te verwerken en een automatische transcriptie te genereren. Tot slot, zodra de verwerking is voltooid, kan het Transcribathon-platform toegang krijgen tot de transcriptie en deze aan de vrijwilliger laten zien, opnieuw via de metagrapho API.
De metagrapho API biedt niet alleen de transcriptie, maar ook de coördinaten voor elke regel of zelfs woord gevonden in de afbeelding - iets dat niet mogelijk was in de oude versie van Transcribathon. Deze functie maakt het mogelijk om vervolgens de transcripties te gebruiken voor verdere toepassingen, zoals het markeren van overeenkomende zoekwoorden in de tekst tijdens een full-text zoekopdracht.
Een verbeterde transcriptie-editor
Het bijwerken van de technologie achter Transcribathon betekende dat de transcriptie-editor - het deel dat een vrijwilliger gebruikt om hun transcripties in te voeren - niet langer in staat was om te gaan met het rijkere gegevensformaat dat het terug ontving van de metagrapho API. Daarom heeft READ-COOP een aangepaste transcriptie-editor voor Transcribathon gebouwd. Hierdoor kunnen mensen op een regel van de transcriptie klikken en de overeenkomstige regel in de afbeelding van de tekst zien.
Om het proces te versnellen, nam READ-COOP de bestaande editor in de Transkribus-software, wijzigde deze om aan de vereisten van Transcribathon te voldoen en veranderde deze in een widget. De widget werd vervolgens eenvoudig in het Transcribathon-platform ingevoegd, waardoor gebruikers toegang konden krijgen tot de transcripties die door de metagrapho API werden gegenereerd en deze konden bewerken. Het gebruik van de bestaande Transkribus-editor en het eenvoudig aanpassen ervan bespaarde ook kostbare ontwikkelingstijd en -kosten.
De kracht van samenwerking
Deze technologische updates brengen Transcribathon naar een hoger niveau. In plaats van tijdrovende transcripties helemaal opnieuw te maken, kunnen vrijwilligers nu eenvoudig automatisch gegenereerde transcripties corrigeren in de nieuwe transcriptie-editor, waardoor ze veel meer documenten kunnen verwerken tijdens een run.
READ-COOP traint momenteel de handgeschreven tekstherkenning AI-modellen op basis van materiaal dat al is getranscribeerd, of voor materiaal dat binnenkort zal worden getranscribeerd, in Transcribathon. Hoe beter het AI-model is aangepast aan het materiaal in focus, hoe nauwkeuriger de automatische transcripties zullen zijn.
Een aankomende Transcribathon Run zal bijvoorbeeld scans bevatten van rantsoenkaarten uit het Rijksarchief in Zagreb, die tijdens de Tweede Wereldoorlog (vanaf 1941 1945.) werden gebruikt als een vorm van rantsoenering van voedsel en andere middelen. De kaarten bevatten demografische en sociaal-economische indicatoren voor individuen en/of huishoudens zoals titels, banen en zijn daarom een rijke bron van onderzoeksmateriaal.
Als voorbereiding op deze run hield READ-COOP een webinar met medewerkers van het archief, om hen te laten zien hoe ze trainingsgegevens kunnen voorbereiden. Deze opleidingsgegevens zullen vervolgens worden gebruikt om een handschriftmodel te trainen of de motor te “leren” dit soort documenten te lezen, zodat deze tijdens de rit nauwkeuriger kunnen worden getranscribeerd. Dit, in combinatie met de leesvaardigheid van de vrijwilligers, moet het archief van Zagreb in staat stellen een groter aantal documenten te digitaliseren dan ooit tevoren.
Meer informatie
In deze video kunt u het webinar over het voorbereiden van trainingsgegevens bekijken. U vindt de integratie van de editor voor automatische Handgeschreven Tekstherkenning op het Transcribathon platform en kunt de eerste resultaten van de Dublin papers bekijken.
Dit bericht is geschreven door Fiona Park, Content Manager READ-COOP SCE, en Philip Kahle, Software Developer, READ COOP.
