2016. aastal käivitatud Transcribathoni platvormi on edasi arendatud kahe geneeriliste teenuste projektiga: Enrich Europeana (2018–2020) ja Enrich Europeana Plus (2021–2023). Platvorm võimaldab vabatahtlikel kirjutada käsitsi kirjutatud ajaloolisi tekste erinevates keeltes ja erinevatest ajaloolistest perioodidest, kasutades ainult oma arvutit. Alates projektide käivitamisest on vabatahtlikud transkribeerinud üle 372 000 dokumendi ja muutnud need digitaalseteks tekstifailideks, mis on aidanud laiendada ja rikastada Europeana tohutuid digitaalse kultuuripärandi kogusid.
2021. aastal hakati projektiga Enrich Europeana Plus ajakohastama Transcribathoni platvormi täiustatud käekirjatuvastustehnoloogiaga, mis kasutab tehisintellekti, et pakkuda automaatseid transkriptsioone, mida vabatahtlikud saavad seejärel kontrollida. Üks suurimaid sellise tehnoloogia pakkujaid on Euroopa ühistu READ-COOP, mis haldab populaarset Transkribuse tarkvara. Enrich Europeana Plus töötas mitu kuud koos READ-COOPiga ja integreeris oma tehnoloogia Transcribathoni platvormi.
Transcribathoni sidumine metagraafi API-ga
Transkribuse tarkvara, mis on välja töötatud Innsbrucki ülikooli juhitud ELi rahastatud projekti raames, võimaldab ajaloolisi käsitsi kirjutatud dokumente massiliselt automaatselt transkribeerida. Tehnoloogia kasutab tehisintellekti, et „õppida“ lugema konkreetset liiki käekirja, ja seejärel rakendab neid teadmisi tekstide automaatse transkriptsiooni loomiseks. See kiirendab oluliselt transkriptsiooniprotsessi: transkriiber ei pea enam kulutama tunde transkriptsiooni kirjutamiseks nullist, kuna nad saavad selle asemel automaatset transkriptsiooni korrigeerida.
Käekirjatuvastuse tehnoloogia, nagu Transkribus, on eriti ideaalne kodanike teadusprojektide jaoks. Mida lihtsam on neid dokumente transkribeerida, seda rohkem dokumente saavad vabatahtlikud teatud aja jooksul töödelda ja seda kiiremini saab Europeana veebisaiti rikastada. Transcribathoni meeskond oli seetõttu huvitatud selle tehnoloogia rakendamisest platvormil.
Selleks otsustasid nad kasutada READ-COOPi metagraafilist rakendusliidest, et Transcribathon saaks juurdepääsu Transkribuse tehnoloogiale. API on tarkvara, mis toimib sõnumitoojana kahe erineva platvormi vahel. Keegi küsib teavet ühel platvormil ja platvorm saadab selle taotluse teise platvormi API-le. Kui see teine platvorm on taotlusele vastanud, toob API selle tagasi esimesele platvormile ja isik saab vajaliku teabe.
Transcribathoni platvorm kasutab metagrapho API-d täpselt nii. Kui vabatahtlik soovib saada teksti automaatset transkriptsiooni, taotlevad nad seda Transcribathoni platvormil. Seejärel saadab Transcribathon selle taotluse metagrapho API-le, mis kasutab pildi töötlemiseks ja automaatse transkriptsiooni loomiseks käekirja tuvastamise tehnoloogiat. Lõpuks, kui töötlemine on lõppenud, pääseb Transcribathoni platvorm transkriptsioonile juurde ja näitab seda vabatahtlikule, taas metagraafi API kaudu.
Metagrapho API ei paku mitte ainult transkriptsiooni, vaid ka iga pildil leiduva rea või isegi sõna koordinaate - midagi, mis Transcribathoni vanas versioonis ei olnud võimalik. See funktsioon võimaldab seejärel kasutada transkriptsioone edasistes rakendustes, näiteks täistekstiotsingu käigus tekstis sobivate märksõnade esiletõstmiseks.
Täiustatud transkriptsiooniredaktor
Transcribathoni taga oleva tehnoloogia ajakohastamine tähendas, et transkriptsiooniredaktor - osa, mida vabatahtlik kasutab oma transkriptsioonide sisestamiseks - ei suutnud enam toime tulla rikkalikuma andmevorminguga, mida ta metagrapho API-st tagasi sai. Seetõttu ehitas READ-COOP Transcribathoni jaoks kohandatud transkriptsiooniredaktori. See võimaldab inimestel klõpsata transkriptsiooni real ja näha vastavat rida teksti pildil.
Protsessi kiirendamiseks võttis READ-COOP Transkribuse tarkvara olemasoleva redaktori, muutis seda Transcribathoni nõuetele vastavaks ja muutis selle vidinaks. Seejärel sisestati vidin lihtsalt Transcribathoni platvormile, mis võimaldas kasutajatel metagrapho API genereeritud transkriptsioonidele juurde pääseda ja neid muuta. Kasutades olemasolevat Transkribuse redaktorit ja lihtsalt muutes seda, säästis ka väärtuslikku arendusaega ja -kulusid.
Koostöö jõud
Need tehnoloogilised uuendused viivad Transcribathoni järgmisele tasemele. Selle asemel, et luua aeganõudvaid transkriptsioone nullist, saavad vabatahtlikud nüüd lihtsalt parandada automaatselt genereeritud transkriptsioone uues transkriptsiooniredaktoris, aidates neil jooksu ajal töödelda palju rohkem dokumente.
READ-COOP treenib praegu käsitsi kirjutatud tekstituvastuse tehisintellektimudeleid Transcribathonis juba transkribeeritud või peagi transkribeeritava materjali põhjal. Mida paremini on tehisintellekti mudel kohandatud fookuses oleva materjaliga, seda täpsemad on automaatsed transkriptsioonid.
Näiteks ühel eelseisval Transcribathon Runil on Zagrebi riigiarhiivist pärit toidukaartide skaneerimine, mida kasutati Teise maailmasõja ajal (alates 1941. aastast 1945. aastast) toidu ja muude ressursside normeerimise vormina. Kaardid sisaldavad üksikisikute ja/või leibkondade demograafilisi ja sotsiaalmajanduslikke näitajaid, nagu tiitlid ja töökohad, ning on seega rikkalik uurimismaterjali allikas.
Selle jooksu ettevalmistamiseks korraldas READ-COOP arhiivi töötajatega veebiseminari, et näidata neile, kuidas koolitusandmeid ette valmistada. Neid koolitusandmeid kasutatakse seejärel käekirjamudeli treenimiseks või mootori õpetamiseks, kuidas seda tüüpi dokumente lugeda, et see saaks sõidu ajal esitada täpsemaid transkriptsioone. See koos vabatahtlike korrektuurioskustega peaks võimaldama Zagrebi arhiivil digiteerida rohkem dokumente kui kunagi varem.
Uuri lähemalt
Selles videos saate vaadata veebiseminari koolitusandmete ettevalmistamise kohta. Te leiate Transcribathoni platvormilt automaatse käsitsi kirjutatud tekstituvastuse redaktori integratsiooni ja saate tutvuda Dublini dokumentide esimeste tulemustega.
Selle postituse kirjutasid Fiona Park, Content Manager READ-COOP SCE ja Philip Kahle, Software Developer, READ COOP.
