2016. gadā uzsāktā platforma Transcribathon ir pilnveidota divos vispārējo pakalpojumu projektos: Enrich Europeana (2018–2020) un Enrich Europeana Plus (2021–2023). Platforma ļauj brīvprātīgajiem transkribēt ar roku rakstītus vēsturiskus tekstus dažādās valodās un no dažādiem vēsturiskiem periodiem, izmantojot tikai savu datoru. Kopš projektu uzsākšanas brīvprātīgie ir pārrakstījuši vairāk nekā 372 000 dokumentu un pārveidojuši tos par digitālām teksta datnēm, palīdzot paplašināt un bagātināt Europeana plašās digitālā kultūras mantojuma priekšmetu kolekcijas.
2021. gadā Enrich Europeana Plus projekts sāka atjaunināt Transcribathon platformu ar progresīvu rokraksta atpazīšanas tehnoloģiju, kas izmanto mākslīgo intelektu, lai nodrošinātu automātiskas transkripcijas, kuras pēc tam var pārbaudīt brīvprātīgie. Viens no lielākajiem šādu tehnoloģiju nodrošinātājiem ir READ-COOP, Eiropas kooperatīvā sabiedrība, kas pārvalda populāro Transkribus programmatūru. Enrich Europeana Plus vairākus mēnešus strādāja ar READ-COOP un iekļāva savu tehnoloģiju Transcribathon platformā.
Transcribathon sasaiste ar “metagrapho” API
Programma “Transkribus”, kas izstrādāta kā daļa no ES finansēta projekta Insbrukas Universitātes vadībā, ļauj automātiski pārrakstīt vēsturiskus ar roku rakstītus dokumentus masveidā. Tehnoloģija izmanto MI, lai “mācītos” lasīt konkrētus rokraksta veidus, un pēc tam izmanto šīs zināšanas, lai izveidotu tekstu automātiskas transkripcijas. Tas ievērojami paātrina transkripcijas procesu: Transkribatoram vairs nav jātērē stundas, rakstot transkripciju no nulles, jo tā vietā viņi var korekti izlasīt automātisko transkripciju.
Rokraksta atpazīšanas tehnoloģija, piemēram, Transkribus, ir īpaši piemērota amatierzinātnes projektiem. Jo vieglāk ir pārrakstīt šos dokumentus, jo vairāk dokumentu brīvprātīgie var apstrādāt noteiktā termiņā un jo ātrāk var bagātināt Europeana tīmekļa vietni. Tāpēc Transcribathon komanda vēlējās ieviest šo tehnoloģiju platformā.
Lai to izdarītu, viņi nolēma izmantot READ-COOP metagrafo API, lai Transcribathon varētu piekļūt Transkribus tehnoloģijai. API ir programmatūras daļa, kas darbojas kā kurjers starp divām dažādām platformām. Kāds pieprasa informāciju vienā platformā, un platforma nosūta šo pieprasījumu citas platformas API. Kad šī otrā platforma ir saņēmusi atbildi uz pieprasījumu, API to nosūta atpakaļ uz pirmo platformu, un persona saņem nepieciešamo informāciju.
Transcribathon platforma izmanto metagrapho API tieši šādā veidā. Ja brīvprātīgais vēlas saņemt automātisku teksta transkripciju,viņi to pieprasa Transcribathon platformā. Pēc tam Transcribathon nosūta šo pieprasījumu metagrapho API, kas izmanto rokraksta atpazīšanas tehnoloģiju, lai apstrādātu attēlu un ģenerētu automātisku transkripciju. Visbeidzot, kad apstrāde ir pabeigta, Transcribathon platforma var piekļūt transkripcijai un parādīt to brīvprātīgajam, atkal izmantojot metagrapho API.
Metagrapho API nodrošina ne tikai transkripciju, bet arī koordinātas katrai rindai vai pat vārdam, kas atrodams attēlā - kaut kas nebija iespējams Transcribathon vecajā versijā. Šī funkcija ļauj pēc tam izmantot transkripcijas citām lietojumprogrammām, piemēram, izceļot atbilstošos atslēgvārdus tekstā pilna teksta meklēšanas laikā.
Uzlabots transkripcijas redaktors
Transcribathon tehnoloģijas atjaunināšana nozīmēja, ka transkripcijas redaktors - daļa, ko brīvprātīgais izmanto, lai ievadītu savas transkripcijas - vairs nespēja tikt galā ar bagātīgāko datu formātu, ko tas saņēma atpakaļ no metagrapho API. Tāpēc READ-COOP izveidoja pielāgotu transkripcijas redaktoru Transcribathon. Tas ļauj lietotājiem noklikšķināt uz transkripcijas rindiņas un redzēt attiecīgo rindiņu teksta attēlā.
Lai paātrinātu procesu, READ-COOP pārņēma Transkribus programmatūras esošo redaktoru, pārveidoja to, lai tas atbilstu Transcribathon prasībām, un pārvērta to par logrīku. Pēc tam logrīks tika vienkārši ievietots Transcribathon platformā, ļaujot lietotājiem piekļūt metagrapho API ģenerētajām transkripcijām un rediģēt tās. Izmantojot esošo Transkribus redaktoru un vienkārši pārveidojot to, tika ietaupīts arī vērtīgais izstrādes laiks un izmaksas.
Sadarbības spēks
Šie tehnoloģiskie atjauninājumi paceļ Transcribathon nākamajā līmenī. Tā vietā, lai radītu laikietilpīgas transkripcijas no nulles, brīvprātīgie tagad var vienkārši labot automātiski ģenerētās transkripcijas jaunajā transkripcijas redaktorā, palīdzot viņiem apstrādāt daudz vairāk dokumentu brauciena laikā.
READ-COOP pašlaik apmāca ar roku rakstītus teksta atpazīšanas MI modeļus, pamatojoties uz materiāliem, kas jau ir transkribēti vai drīzumā tiks transkribēti Transcribathon. Jo labāk MI modelis ir pielāgots fokusējamajam materiālam, jo precīzākas būs automātiskās transkripcijas.
Piemēram, vienā gaidāmajā Transcribathon Run būs redzamas Zagrebas Valsts arhīva diētu kartītes, kas 2. pasaules kara laikā (no 1941. līdz 1945. gadam) tika izmantotas kā pārtikas un citu resursu normēšanas veids. Kartēs ir iekļauti demogrāfiskie un sociālekonomiskie rādītāji par indivīdiem un/vai mājsaimniecībām, piemēram, tituli, darbvietas, un tāpēc tās ir bagātīgs pētniecības materiālu avots.
Gatavojoties šim braucienam, READ-COOP rīkoja tīmekļsemināru ar arhīva darbiniekiem, lai parādītu viņiem, kā sagatavot apmācības datus. Pēc tam šie apmācības dati tiks izmantoti, lai apmācītu rokraksta modeli vai “mācītu” dzinējam lasīt šāda veida dokumentus, lai tas varētu nodrošināt precīzākas transkripcijas brauciena laikā. Tam apvienojumā ar brīvprātīgo korektūras prasmēm būtu jāļauj Zagrebas arhīvam digitalizēt lielāku dokumentu skaitu nekā jebkad agrāk.
Uzzināt vairāk
Šajā videoklipā varat aplūkot tīmekļsemināru par to, kā sagatavot apmācības datus. Automātiskās ar roku rakstītā teksta atpazīšanas redaktora integrācija ir pieejama Transcribathon platformā, un jūs varat iepazīties ar pirmajiem rezultātiem no Dublinas dokumentiem.
Šo ziņu rakstīja Fiona Park, satura vadītājs READ-COOP SCE, un Philip Kahle, programmatūras izstrādātājs, READ COOP.
