Platforma Transcribathon, ktorá bola spustená v roku 2016, bola ďalej vyvinutá v rámci dvoch projektov Generic Services: Enrich Europeana (2018 – 2020) a Enrich Europeana Plus (2021 – 2023). Platforma umožňuje dobrovoľníkom prepisovať ručne písané historické texty v rôznych jazykoch a z rôznych historických období, pričom používajú len svoj počítač. Od začiatku projektov dobrovoľníci prepísali viac ako 372 000 dokumentov a zmenili ich na digitálne textové súbory, čo pomohlo rozšíriť a obohatiť rozsiahle zbierky predmetov digitálneho kultúrneho dedičstva Europeany.
V roku 2021 sa v rámci projektu Enrich Europeana Plus začala aktualizovať platforma Transcribathon pokročilou technológiou rozpoznávania rukopisu, ktorá využíva umelú inteligenciu na poskytovanie automatických prepisov, ktoré potom môžu kontrolovať dobrovoľníci. Jedným z najväčších poskytovateľov takejto technológie je READ-COOP, európska družstevná spoločnosť, ktorá spravuje populárny softvér Transkribus. Enrich Europeana Plus strávil niekoľko mesiacov prácou s READ-COOP a integráciou svojej technológie do platformy Transcribathon.
Prepojenie programu Transcribathon s rozhraním API „metagrapho“
Softvér Transkribus, ktorý bol vyvinutý v rámci projektu financovaného EÚ pod vedením Univerzity v Innsbrucku, umožňuje automatický hromadný prepis historických ručne písaných dokumentov. Technológia využíva umelú inteligenciu na to, aby sa „učila“ čítať konkrétne druhy rukopisu, a potom tieto znalosti implementuje na vytvorenie automatických prepisov textov. To dramaticky urýchľuje proces transkripcie: Prepisovateľ už nemusí tráviť hodiny písaním prepisu od nuly, pretože namiesto toho môže korigovať automatický prepis.
Technológia rozpoznávania rukopisu, ako je Transkribus, je obzvlášť ideálna pre projekty občianskej vedy. Čím jednoduchšie je prepis týchto dokumentov, tým viac dokumentov môžu dobrovoľníci spracovať v určitom časovom rámci a tým rýchlejšie je možné obohatiť webovú stránku Europeany. Tím Transcribathon bol preto ochotný implementovať túto technológiu do platformy.
Na tento účel sa rozhodli použiť rozhranie API metagrafie READ-COOP, aby umožnili spoločnosti Transcribathon prístup k technológii Transkribus. API je softvér, ktorý funguje ako posol medzi dvoma rôznymi platformami. Niekto požiada o informácie na jednej platforme a platforma pošle túto žiadosť API inej platformy. Keď táto druhá platforma odpovie na žiadosť, API ju vráti späť na prvú platformu a osoba dostane informácie, ktoré potrebuje.
Platforma Transcribathon používa metagrapho API presne týmto spôsobom. Keď chce dobrovoľník získať automatický prepis textu, požiadajú o to na platforme Transcribathon. Transcribathon potom odošle túto požiadavku na metagrapho API, ktoré používa technológiu rozpoznávania rukopisu na spracovanie obrazu a generovanie automatického prepisu. A nakoniec, keď je spracovanie dokončené, platforma Transcribathon môže pristupovať k prepisu a ukázať ho dobrovoľníkovi, opäť prostredníctvom rozhrania API metagrapha.
Metagrapho API poskytuje nielen prepis, ale aj súradnice pre každý riadok alebo dokonca slovo nájdené na obrázku - niečo, čo nebolo možné v starej verzii Transcribathon. Táto funkcia umožňuje potom použiť prepisy pre ďalšie aplikácie, napríklad zvýraznenie zodpovedajúcich kľúčových slov v texte počas celotextového vyhľadávania.
Vylepšený editor transkripcií
Aktualizácia technológie Transcribathon znamenala, že editor prepisov - časť, ktorú dobrovoľník používa na zadávanie svojich prepisov - už nebol schopný vyrovnať sa s bohatším dátovým formátom, ktorý dostával späť z metagrapho API. Preto READ-COOP vytvoril vlastný editor prepisov pre Transcribathon. To umožňuje ľuďom kliknúť na riadok prepisu a zobraziť zodpovedajúci riadok na obrázku textu.
Ak chcete urýchliť proces, READ-COOP vzal existujúci editor v softvéri Transkribus, upravil ho tak, aby vyhovoval požiadavkám programu Transcribathon, a zmenil ho na widget. Widget bol potom jednoducho vložený do platformy Transcribathon, čo umožnilo používateľom prístup a úpravu prepisov generovaných rozhraním metagrapho API. Použitím existujúceho editora Transkribus a jeho jednoduchou úpravou sa tiež ušetril drahocenný čas a náklady na vývoj.
Sila spolupráce
Tieto technologické aktualizácie posúvajú Transcribathon na ďalšiu úroveň. Namiesto vytvárania časovo náročných prepisov od nuly môžu dobrovoľníci jednoducho opraviť automaticky generované prepisy v novom editore prepisov, čo im pomôže spracovať oveľa viac dokumentov počas behu.
READ-COOP v súčasnosti trénuje modely umelej inteligencie na rozpoznávanie rukou písaného textu na základe materiálu, ktorý už bol prepísaný, alebo pre materiál, ktorý sa má čoskoro prepísať, v Transcribathone. Čím lepšie je model umelej inteligencie prispôsobený materiálu, na ktorý sa zameriava, tým presnejšie budú automatické transkripcie.
Napríklad jeden nadchádzajúci Transcribathon Run bude obsahovať skeny kariet dávok zo Štátneho archívu v Záhrebe, ktoré sa používali počas 2. svetovej vojny (od roku 1941 1945) ako forma prídelu potravín a iných zdrojov. Karty obsahujú demografické a sociálno-ekonomické ukazovatele pre jednotlivcov a/alebo domácnosti, ako sú tituly, pracovné miesta, a preto sú bohatým zdrojom výskumných materiálov.
Ako prípravu na tento beh, READ-COOP usporiadal webinár so zamestnancami archívu, aby im ukázal, ako pripraviť tréningové dáta. Tieto trénovacie údaje sa potom použijú na trénovanie modelu rukopisu alebo na „učenie“ motora, ako čítať dokumenty tohto typu, aby mohol počas jazdy poskytovať presnejšie prepisy. To by spolu s korektúrou zručností dobrovoľníkov malo umožniť záhrebskému archívu digitalizovať väčší počet dokumentov ako kedykoľvek predtým.
Ďalšie informácie
Webinár o tom, ako pripraviť školiace údaje, si môžete pozrieť v tomto videu. Integráciu editora pre automatické ručné rozpoznávanie textu nájdete na platforme Transcribathon a môžete si pozrieť prvé výsledky z dublinských dokumentov.
Tento príspevok napísal Fiona Park, Content Manager READ-COOP SCE a Philip Kahle, Software Developer, READ COOP.
