Platforma Transcribathon, pokrenuta 2016., dodatno je razvijena u okviru dvaju projekata generičkih usluga: Enrich Europeana (2018.–2020.) i Enrich Europeana Plus (2021.–2023.). Platforma omogućuje volonterima da prepisuju rukom pisane povijesne tekstove na različitim jezicima i iz različitih povijesnih razdoblja, koristeći ništa više od svog računala. Od početka projekata volonteri su prepisali više od 372 000 dokumenata i pretvorili ih u digitalne tekstualne datoteke, što je pomoglo u širenju i obogaćivanju golemih zbirki digitalnih predmeta kulturne baštine Europeane.
U 2021. projekt Enrich Europeana Plus počeo je ažurirati platformu Transcribathon naprednom tehnologijom prepoznavanja rukopisa, koja se koristi umjetnom inteligencijom za pružanje automatskih prijepisa koje zatim mogu provjeriti volonteri. Jedan od najvećih pružatelja takve tehnologije je READ-COOP, Europsko zadružno društvo koje upravlja popularnim softverom Transkribus. Enrich Europeana Plus proveo je nekoliko mjeseci radeći s READ-COOP-om i integrirajući svoju tehnologiju u Transcribathon platformu.
Povezivanje transkribatona s API-jem „metagrafa”
Softver Transkribus razvijen je u okviru projekta koji financira EU, a vodi ga Sveučilište u Innsbrucku, a omogućuje automatsku masovnu transkribaciju povijesnih rukom pisanih dokumenata. Tehnologija se koristi umjetnom inteligencijom kako bi „učila” čitati određene vrste rukopisa, a zatim primjenjuje to znanje kako bi stvorila automatske transkripcije tekstova. To dramatično ubrzava proces transkripcije: transkriber više ne treba provoditi sate pišući transkripciju od nule, jer umjesto toga mogu lektorirati automatsku transkripciju.
Tehnologija prepoznavanja rukopisa kao što je Transkribus posebno je idealna za građanske znanstvene projekte. Što je lakše prepisati te dokumente, to volonteri mogu obraditi više dokumenata u određenom vremenskom okviru, a internetska stranica Europeane može se brže obogatiti. Tim Transcribathona stoga je želio implementirati ovu tehnologiju u platformu.
U tu su svrhu odlučili upotrijebiti READ-COOP-ov metagrafski API kako bi Transcribathonu omogućili pristup tehnologiji Transkribus. API je dio softvera koji djeluje kao glasnik između dvije različite platforme. Netko traži informacije na jednoj platformi, a platforma šalje taj zahtjev API-ju druge platforme. Nakon što ta druga platforma odgovori na zahtjev, API ga vraća na prvu platformu i osoba dobiva informacije koje su joj potrebne.
Transcribathon platforma koristi metagrapho API upravo na ovaj način. Kada volonter želi dobiti automatsku transkripciju teksta, oni to traže na platformi Transcribathon. Transcribathon zatim šalje ovaj zahtjev metagrafskom API-ju, koji koristi tehnologiju prepoznavanja rukopisa za obradu slike i generira automatsku transkripciju. Konačno, nakon završetka obrade, Transcribathon platforma može pristupiti prijepisu i pokazati ga volonteru, ponovno putem metagrafskog API-ja.
Metagrapho API ne samo da pruža transkripciju, već i koordinate za svaku liniju ili čak riječ koja se nalazi na slici - nešto što nije bilo moguće u staroj verziji Transcribathona. Ta značajka omogućuje upotrebu transkripcija za daljnje aplikacije, kao što je isticanje odgovarajućih ključnih riječi u tekstu tijekom pretraživanja cijelog teksta.
Poboljšani uređivač prijepisa
Ažuriranje tehnologije iza Transcribathona značilo je da se urednik transkripcije - dio koji volonter koristi za unos svojih transkripcija - više nije mogao nositi s bogatijim formatom podataka koji je primao natrag iz API-ja metagrafa. Stoga je READ-COOP izradio prilagođeni urednik transkripcije za Transcribathon. To omogućuje ljudima da kliknu na redak transkripcije i vide odgovarajući redak na slici teksta.
Kako bi ubrzao proces, READ-COOP je preuzeo postojeći editor u Transkribus softveru, izmijenio ga kako bi odgovarao zahtjevima Transcribathona i pretvorio ga u widget. Widget je zatim jednostavno umetnut u platformu Transcribathon, što korisnicima omogućuje pristup i uređivanje prijepisa generiranih API-jem metagrafa. Korištenjem postojećeg uređivača Transkribusa i njegovom jednostavnom izmjenom uštedjelo se i dragocjeno vrijeme i troškovi razvoja.
Moć suradnje
Te tehnološke promjene podižu Transcribathon na sljedeću razinu. Umjesto stvaranja dugotrajnih transkripcija od nule, volonteri sada mogu jednostavno ispraviti automatski generirane transkripcije u novom uređivaču transkripcija, pomažući im da obrađuju još mnogo dokumenata tijekom trčanja.
READ-COOP trenutačno trenira modele umjetne inteligencije za prepoznavanje rukom napisanog teksta na temelju materijala koji je već prijepisan ili za materijal koji će uskoro biti prijepisan u Transcribathonu. Što je UI model bolje prilagođen materijalu u fokusu, to će automatski prijepisi biti točniji.
Na primjer, jedan nadolazeći Transcribathon Run sadržavat će skenirane ration kartice iz Državnog arhiva u Zagrebu koje su korištene tijekom Drugog svjetskog rata (od 1941. do 1945.) kao oblik racioniranja hrane i drugih resursa. Kartice sadržavaju demografske i socioekonomske pokazatelje za pojedince i/ili kućanstva kao što su naslovi, radna mjesta te su stoga bogat izvor istraživačkog materijala.
U sklopu priprema za ovu utrku, READ-COOP je održao webinar sa zaposlenicima arhive, kako bi im pokazao kako pripremiti podatke o treningu. Ti će se podaci o osposobljavanju zatim upotrebljavati za osposobljavanje modela rukopisa ili za „učenje” motora o tome kako čitati dokumente te vrste kako bi se tijekom vožnje mogli osigurati točniji prijepisi. To bi, u kombinaciji s lektorskim vještinama volontera, trebalo omogućiti zagrebačkoj arhivi digitalizaciju većeg broja dokumenata nego ikad prije.
Saznajte više
U ovom videozapisu možete pregledati internetski seminar o tome kako pripremiti podatke o osposobljavanju. Integracija uređivača za automatsko prepoznavanje rukom pisanih tekstova naći ćete na platformi Transcribathon i možete provjeriti prve rezultate iz dublinskih dokumenata.
Ovaj post napisali su Fiona Park, upravitelj sadržaja READ-COOP SCE i Philip Kahle, programer softvera, READ COOP.
