Platforma Transcribathon, která byla spuštěna v roce 2016, byla dále rozvíjena dvěma projekty generických služeb: Enrich Europeana (2018–2020) a Enrich Europeana Plus (2021–2023). Platforma umožňuje dobrovolníkům přepisovat ručně psané historické texty v různých jazycích a z různých historických období, a to pouze pomocí počítače. Od zahájení projektů dobrovolníci přepsali více než 372 000 dokumentů a přeměnili je na digitální textové soubory, což pomohlo rozšířit a obohatit rozsáhlé sbírky digitálního kulturního dědictví Europeany.
V roce 2021 začal projekt Enrich Europeana Plus aktualizovat platformu Transcribathon o pokročilou technologii rozpoznávání rukopisu, která využívá umělou inteligenci k poskytování automatických přepisů, které pak mohou zkontrolovat dobrovolníci. Jedním z největších poskytovatelů této technologie je READ-COOP, evropská družstevní společnost, která spravuje populární software Transkribus. Enrich Europeana Plus strávil několik měsíců prací s READ-COOP a začleněním jejich technologie do platformy Transcribathon.
Propojení Transcribathonu s API „metagrapho“
Software Transkribus, který byl vyvinut v rámci projektu financovaného EU a vedeného univerzitou v Innsbrucku, umožňuje automatické hromadné přepisování historických ručně psaných dokumentů. Tato technologie využívá umělou inteligenci k tomu, aby se naučila číst konkrétní typy rukopisu, a poté tyto znalosti využívá k vytváření automatických přepisů textů. To výrazně urychluje proces přepisu: přepisovatel již nemusí trávit hodiny psaním přepisu od nuly, protože místo toho může provést korekturu automatického přepisu.
Technologie rozpoznávání rukopisu, jako je Transkribus, je obzvláště ideální pro projekty občanské vědy. Čím jednodušší je přepis těchto dokumentů, tím více dokumentů mohou dobrovolníci v určitém časovém rámci zpracovat a tím rychleji lze internetové stránky Europeany obohatit. Tým Transcribathon proto měl zájem implementovat tuto technologii do platformy.
Za tímto účelem se rozhodli použít metagrafické rozhraní API společnosti READ-COOP, aby společnosti Transcribathon umožnili přístup k technologii Transkribus. API je software, který funguje jako posel mezi dvěma různými platformami. Někdo požaduje informace na jedné platformě a platforma odešle tuto žádost API jiné platformy. Jakmile tato druhá platforma odpoví na žádost, API ji vrátí zpět na první platformu a osoba dostane informace, které potřebuje.
Platforma Transcribathon používá metagrapho API přesně tímto způsobem. Když chce dobrovolník získat automatický přepis textu, požádá o to na platformě Transcribathon. Transcribathon pak odešle tento požadavek do metagrapho API, které používá technologii rozpoznávání rukopisu ke zpracování obrazu a generování automatického přepisu. A konečně, jakmile je zpracování dokončeno, platforma Transcribathon může přistupovat k přepisu a ukázat jej dobrovolníkovi, opět prostřednictvím metagrapho API.
Metagrapho API poskytuje nejen přepis, ale také souřadnice pro každý řádek nebo dokonce slovo nalezené v obrázku - něco, co nebylo možné ve staré verzi Transcribathon. Tato funkce pak umožňuje použít přepisy pro další aplikace, jako je zvýraznění odpovídajících klíčových slov v textu během fulltextového vyhledávání.
Vylepšený editor přepisu
Aktualizace technologie Transcribathon znamenala, že transkripční editor - část, kterou dobrovolník používá k zadávání svých přepisů - již nebyl schopen vyrovnat se s bohatším datovým formátem, který dostával zpět z metagrapho API. Proto READ-COOP vytvořil vlastní transkripční editor pro Transcribathon. To umožňuje lidem kliknout na řádek přepisu a vidět odpovídající řádek v obrázku textu.
Aby se proces urychlil, READ-COOP vzal existující editor v softwaru Transkribus, upravil jej tak, aby vyhovoval požadavkům Transcribathonu, a změnil jej na widget. Widget byl poté jednoduše vložen do platformy Transcribathon, což uživatelům umožnilo přístup a úpravu přepisů generovaných metagrapho API. Použití stávajícího editoru Transkribus a jeho jednoduchá úprava také ušetřila drahocenný čas a náklady na vývoj.
Síla spolupráce
Tyto technologické aktualizace posouvají Transcribathon na další úroveň. Namísto vytváření časově náročných přepisů od nuly mohou nyní dobrovolníci jednoduše opravit automaticky generované přepisy v novém editoru přepisů, což jim pomáhá zpracovávat mnohem více dokumentů během běhu.
READ-COOP v současné době trénuje ručně psané modely rozpoznávání textu AI na základě materiálu již přepsaného nebo materiálu, který bude brzy přepsán, v Transcribathonu. Čím lépe je model umělé inteligence přizpůsoben danému materiálu, tím přesnější budou automatické přepisy.
Například jeden nadcházející Transcribathon Run bude obsahovat skeny přídělových karet ze Státního archivu v Záhřebu, které byly použity během druhé světové války (od roku 1941 1945.) jako forma přídělových potravin a dalších zdrojů. Karty obsahují demografické a socioekonomické ukazatele pro jednotlivce a/nebo domácnosti, jako jsou tituly, pracovní místa, a jsou proto bohatým zdrojem výzkumných materiálů.
V rámci přípravy na tento běh uspořádala společnost READ-COOP webinář se zaměstnanci archivu, aby jim ukázala, jak připravit tréninková data. Tyto tréninkové údaje se pak použijí k trénování modelu rukopisu nebo „naučení“ motoru, jak číst dokumenty tohoto typu, aby mohly během jízdy poskytovat přesnější přepisy. To by spolu s korekturními dovednostmi dobrovolníků mělo záhřebskému archivu umožnit digitalizaci většího počtu dokumentů než kdykoli předtím.
Zjistit více
V tomto videu si můžete prohlédnout webinář o tom, jak připravit údaje o školení. Integraci editoru pro automatické rozpoznávání ručně psaných textů najdete na platformě Transcribathon a můžete se podívat na první výsledky z dublinských dokumentů.
Tento příspěvek napsal Fiona Park, Content Manager READ-COOP SCE, a Philip Kahle, Software Developer, READ COOP.
