Platformo Transcribathon, ki je bila vzpostavljena leta 2016, sta nadalje razvila dva projekta generičnih storitev: Enrich Europeana (2018–2020) in Enrich Europeana Plus (2021–2023). Platforma prostovoljcem omogoča, da prepišejo ročno napisana zgodovinska besedila v različne jezike in iz različnih zgodovinskih obdobij, pri čemer uporabljajo samo svoj računalnik. Od začetka projektov so prostovoljci prepisali več kot 372 000 dokumentov in jih pretvorili v digitalne besedilne datoteke, kar je pripomoglo k razširitvi in obogatitvi obsežnih zbirk predmetov digitalne kulturne dediščine Europeane.
Leta 2021 je projekt Enrich Europeana Plus začel posodabljati platformo Transcribathon z napredno tehnologijo prepoznavanja rokopisa, ki uporablja umetno inteligenco za zagotavljanje samodejnih prepisov, ki jih lahko nato preverijo prostovoljci. Eden največjih ponudnikov takšne tehnologije je READ-COOP, evropska zadruga, ki upravlja priljubljeno programsko opremo Transkribus. Enrich Europeana Plus je več mesecev delal z READ-COOP in vključil njihovo tehnologijo v platformo Transcribathon.
Povezovanje Transcribathona z metagrafskim API-jem
Programska oprema Transkribus, razvita v okviru projekta, ki ga financira EU in vodi Univerza v Innsbrucku, omogoča samodejno množično prepisovanje zgodovinskih ročno napisanih dokumentov. Tehnologija uporablja umetno inteligenco za „učenje“ branja posebnih vrst rokopisa, nato pa to znanje uporablja za ustvarjanje samodejnih prepisov besedil. To dramatično pospeši proces transkripcije: prepisovalcu ni več treba več ur pisati prepisa iz nič, saj lahko namesto tega lektorirajo samodejni prepis.
Tehnologija prepoznavanja rokopisa, kot je Transkribus, je še posebej idealna za znanstvene projekte državljanov. Lažje je prepisati te dokumente, več dokumentov lahko prostovoljci obdelajo v določenem časovnem okviru in hitreje je mogoče obogatiti spletišče Europeane. Ekipa Transcribathon je zato želela uvesti to tehnologijo v platformo.
V ta namen so se odločili za uporabo metagrafskega API-ja READ-COOP, da bi Transcribathonu omogočili dostop do tehnologije Transkribus. API je del programske opreme, ki deluje kot glasnik med dvema različnima platformama. Nekdo zahteva informacije na eni platformi, platforma pa to zahtevo pošlje vmesniku API druge platforme. Ko se ta druga platforma odzove na zahtevo, jo API vrne na prvo platformo in oseba dobi informacije, ki jih potrebuje.
Platforma Transcribathon uporablja metagrapho API prav na ta način. Ko želi prostovoljec dobiti samodejni prepis besedila, to zahteva na platformi Transcribathon. Transcribathon nato pošlje to zahtevo metagrapho API, ki uporablja tehnologijo prepoznavanja rokopisa za obdelavo slike in ustvarjanje samodejnega prepisa. Nazadnje, ko je obdelava končana, lahko platforma Transcribathon dostopa do prepisa in ga pokaže prostovoljcu, spet prek metagrafskega API-ja.
Metagrapho API ne zagotavlja le transkripcije, temveč tudi koordinate za vsako vrstico ali celo besedo, ki jo najdemo na sliki - nekaj, kar v stari različici Transcribathona ni bilo mogoče. Ta funkcija omogoča, da nato uporabite prepise za nadaljnje aplikacije, kot je označevanje ujemajočih se ključnih besed v besedilu med iskanjem po celotnem besedilu.
Izboljšan urejevalnik transkripcij
Posodobitev tehnologije Transcribathon je pomenila, da urejevalnik transkripcije - del, ki ga prostovoljec uporablja za vnos svojih transkripcij - ni več mogel obvladati bogatejšega formata podatkov, ki ga je prejemal od metagrafskega API-ja. Zato je READ-COOP zgradil urejevalnik transkripcij po meri za Transcribathon. To omogoča ljudem, da kliknejo na vrstico prepisa in vidijo ustrezno vrstico na sliki besedila.
Za pospešitev postopka je READ-COOP vzel obstoječi urejevalnik v programski opremi Transkribus, ga spremenil tako, da ustreza zahtevam Transcribathona in ga spremenil v pripomoček. Pripomoček je bil nato preprosto vstavljen v platformo Transcribathon, kar je uporabnikom omogočilo dostop do prepisov, ki jih ustvari metagrapho API, in njihovo urejanje. Uporaba obstoječega urejevalnika Transkribus in preprosto spreminjanje sta prihranila tudi dragocen razvojni čas in stroške.
Moč sodelovanja
Te tehnološke posodobitve ponesejo Transcribathon na naslednjo stopnjo. Namesto ustvarjanja zamudnih prepisov iz nič, lahko prostovoljci zdaj preprosto popravijo samodejno ustvarjene prepise v novem urejevalniku prepisov in jim pomagajo pri obdelavi veliko več dokumentov med tekom.
READ-COOP trenutno usposablja umetnointeligenčne modele za prepoznavanje ročno napisanega besedila na podlagi že prepisanega gradiva ali gradiva, ki bo kmalu prepisano, na Transcribathonu. Bolj kot je model umetne inteligence prilagojen materialu v fokusu, natančnejši bodo samodejni prepisi.
Na primer, en prihajajoči Transcribathon Run bo vseboval skenirane kartice obrokov iz državnega arhiva v Zagrebu, ki so bile uporabljene med drugo svetovno vojno (od leta 1941 1945.) kot oblika racioniranja hrane in drugih virov. Kartice vsebujejo demografske in socialno-ekonomske kazalnike za posameznike in/ali gospodinjstva, kot so nazivi, delovna mesta, zato so bogat vir raziskovalnega gradiva.
V okviru priprav na ta tek je READ-COOP organiziral spletni seminar z zaposlenimi v arhivu, da bi jim pokazal, kako pripraviti podatke o usposabljanju. Ti učni podatki se bodo nato uporabili za usposabljanje modela rokopisa ali „učenje“ motorja, kako brati tovrstne dokumente, da bodo lahko med vožnjo zagotovili natančnejše prepise. To naj bi skupaj z lektoriranjem prostovoljcev zagrebškemu arhivu omogočilo digitalizacijo večjega števila dokumentov kot kdaj koli prej.
Izvedite več
Spletni seminar o tem, kako pripraviti podatke o usposabljanju, si lahko ogledate v tem videoposnetku. Integracijo urejevalnika za samodejno prepoznavanje rokopisnega besedila najdete na platformi Transcribathon in si lahko ogledate prve rezultate iz dublinskih dokumentov.
To objavo sta napisala Fiona Park, vodja vsebine READ-COOP SCE, in Philip Kahle, razvijalec programske opreme, READ COOP.
