Transcribathon-plattformen lanserades 2016 och har vidareutvecklats genom två projekt för generiska tjänster: Enrich Europeana (2018–2020) och Enrich Europeana Plus (2021–2023). Plattformen gör det möjligt för volontärer att transkribera handskrivna historiska texter på olika språk och från olika historiska perioder, med hjälp av ingenting annat än sin dator. Sedan projekten inleddes har över 372 000 dokument transkriberats av volontärer och omvandlats till digitala textfiler, vilket har bidragit till att utöka och berika Europeanas stora samlingar av digitala kulturarvsföremål.
2021 började Enrich Europeana Plus-projektet uppdatera Transcribathon-plattformen med avancerad teknik för handskriftsigenkänning, som använder artificiell intelligens för att tillhandahålla automatiska transkriptioner som sedan kan kontrolleras av frivilliga. En av de största leverantörerna av sådan teknik är READ-COOP, en europeisk kooperativ förening som förvaltar den populära programvaran Transkribus . Enrich Europeana Plus tillbringade flera månader med att arbeta med READ-COOP och införliva sin teknik i Transcribathon-plattformen.
Koppling av Transcribathon till API:et ”metagrapho”
Transkribus-programvaran har utvecklats som en del av ett EU-finansierat projekt som leds av universitetet i Innsbruck och gör det möjligt att automatiskt transkribera historiska handskrivna dokument i stor skala. Tekniken använder AI för att ”lära sig” hur man läser specifika typer av handskrift, och implementerar sedan denna kunskap för att skapa automatiska transkriptioner av texter. Detta påskyndar transkriptionsprocessen dramatiskt: transkriberaren inte längre behöver spendera timmar på att skriva en transkription från början, eftersom de kan korrekturläsa den automatiska transkriptionen istället.
Handskriftsigenkänningsteknik som Transkribus är särskilt idealisk för medborgarvetenskapliga projekt. Ju lättare det är att transkribera dessa dokument, desto fler dokument kan volontärerna behandla inom en viss tidsram och desto snabbare kan Europeanas webbplats berikas. Transcribathon-teamet var därför angelägna om att implementera denna teknik i plattformen.
För att göra detta beslutade de att använda READ-COOP:s metagraf-API för att göra det möjligt för Transcribathon att få tillgång till Transkribus-tekniken. Ett API är en mjukvara som fungerar som en budbärare mellan två olika plattformar. Någon begär information på en plattform, och plattformen skickar denna begäran till API för en annan plattform. När denna andra plattform har ett svar på begäran, tar API det tillbaka till den första plattformen och personen får den information de behöver.
Transcribathon-plattformen använder metagrapho API på exakt detta sätt. När en volontär vill få en automatisk transkription av en text begär de detta på Transcribathon-plattformen. Transcribathon skickar sedan denna begäran till metagrapho API, som använder handskriftsigenkänningsteknik för att bearbeta bilden och generera en automatisk transkription. Slutligen, när behandlingen är klar kan Transcribathon-plattformen komma åt transkriptionen och visa den för volontären, igen via metagrafens API.
Metagrapho API ger inte bara transkriptionen utan också koordinaterna för varje rad eller till och med ord som finns i bilden - något som inte var möjligt i den gamla versionen av Transcribathon. Den här funktionen gör det möjligt att sedan använda transkriptionerna för ytterligare applikationer, till exempel markera matchande sökord i texten under en fulltextsökning.
En förbättrad transkriptionsredigerare
Uppdateringen av tekniken bakom Transcribathon innebar att transkriptionsredigeraren - den del som en volontär använder för att mata in sina transkriptioner - inte längre kunde klara av det rikare dataformatet som det fick tillbaka från metagrafens API. Därför byggde READ-COOP en anpassad transkriptionsredigerare för Transcribathon. Detta gör det möjligt för människor att klicka på en rad i transkriptionen och se motsvarande rad i bilden av texten.
För att påskynda processen tog READ-COOP den befintliga redigeraren i Transkribus-programvaran, modifierade den för att passa kraven i Transcribathon och förvandlade den till en widget. Widgeten infogades sedan helt enkelt i Transcribathon-plattformen, vilket gör det möjligt för användare att komma åt och redigera de transkriptioner som genereras av metagrapho API. Att använda den befintliga Transkribus-redigeraren och helt enkelt ändra den sparade också dyrbar utvecklingstid och kostnader.
Kraften i samarbete
Dessa tekniska uppdateringar tar Transcribathon till nästa nivå. Istället för att skapa tidskrävande transkriptioner från grunden kan volontärer nu helt enkelt korrigera automatiskt genererade transkriptioner i den nya transkriptionsredigeraren, vilket hjälper dem att bearbeta många fler dokument under en körning.
READ-COOP tränar för närvarande de handskrivna textigenkännings-AI-modellerna på grundval av material som redan transkriberats, eller för material som snart ska transkriberas, i Transcribathon. Ju bättre AI-modellen är anpassad till materialet i fokus, desto mer exakta blir de automatiska transkriptionerna.
Till exempel kommer en kommande Transcribathon Run att innehålla skanningar av ransoneringskort från statsarkivet i Zagreb, som användes under andra världskriget (från 1941 1945.) som en form av ransonering av mat och andra resurser. Korten innehåller demografiska och socioekonomiska indikatorer för individer och / eller hushåll som titlar, jobb och är därför en rik källa till forskningsmaterial.
Som förberedelse för denna körning höll READ-COOP ett webbseminarium med anställda i arkivet för att visa dem hur man förbereder träningsdata. Dessa träningsdata kommer sedan att användas för att träna en handskriftsmodell eller ”lära” motorn hur man läser dokument av denna typ, så att den kan ge mer exakta transkriptioner under körningen. Detta, i kombination med volontärernas förmåga att korrekturläsa, bör göra det möjligt för Zagrebs arkiv att digitalisera ett större antal dokument än någonsin tidigare.
Läs mer
Du kan gå igenom webbseminariet om hur du förbereder träningsdata i den här videon. Du hittar integrationen av redaktören för automatisk handskriven textigenkänning på Transcribathon-plattformen och kan kolla in de första resultaten från Dublin-papperna.
Det här inlägget skrevs av Fiona Park, Content Manager READ-COOP SCE, och Philip Kahle, Software Developer, READ COOP.
