A 2016-ban elindított Transcribathon platformot két Generic Services projekt fejlesztette tovább: Enrich Europeana (2018–2020) és Enrich Europeana Plus (2021–2023). A platform lehetővé teszi az önkéntesek számára, hogy kézzel írott történelmi szövegeket írjanak le különböző nyelveken és különböző történelmi időszakokból, csak a számítógépüket használva. A projektek kezdete óta több mint 372 000 dokumentumot írtak át önkéntesek, és alakítottak át digitális szövegfájlokká, ami hozzájárult az Europeana digitális kulturális örökségi tárgyak hatalmas gyűjteményének bővítéséhez és gazdagításához.
2021-ben az Enrich Europeana Plus projekt megkezdte a Transcribathon platform frissítését fejlett kézírás-felismerő technológiával, amely mesterséges intelligenciát használ az automatikus átírások biztosítására, amelyeket aztán önkéntesek ellenőrizhetnek. Az ilyen technológiák egyik legnagyobb szolgáltatója a READ-COOP, egy európai szövetkezet, amely a népszerű Transkribus szoftvert kezeli. Az Enrich Europeana Plus hónapokig dolgozott a READ-COOP-pal, és beépítette technológiáját a Transcribathon platformba.
A Transcribathon összekapcsolása a „metagrapho” API-val
Az Innsbrucki Egyetem által vezetett uniós finanszírozású projekt részeként kifejlesztett Transkribus szoftver lehetővé teszi a történelmi kézzel írott dokumentumok tömeges automatikus átírását. A technológia mesterséges intelligenciát használ arra, hogy „megtanulja”, hogyan kell olvasni bizonyos típusú kézírásokat, majd ezt az ismeretet alkalmazza a szövegek automatikus átírásának létrehozására. Ez jelentősen felgyorsítja a transzkripciós folyamatot: a transzkriptornak már nem kell órákat töltenie a transzkripció írásával a semmiből, mivel az automatikus transzkripciót le tudja ellenőrizni.
A Transkribushoz hasonló kézírás-felismerő technológia különösen ideális a civil tudományos projektekhez. Minél könnyebb ezeket a dokumentumokat átírni, annál több dokumentumot tudnak feldolgozni az önkéntesek egy bizonyos időkereten belül, és annál gyorsabban lehet gazdagítani az Europeana weboldalát. A Transcribathon csapata ezért lelkesen hajtotta végre ezt a technológiát a platformon.
Ennek érdekében úgy döntöttek, hogy a READ-COOP metagráfiai API-ját használják annak érdekében, hogy a Transcribathon hozzáférhessen a Transkribus technológiához. Az API egy olyan szoftver, amely üzenetküldőként működik két különböző platform között. Valaki információt kér egy platformon, és a platform elküldi ezt a kérést egy másik platform API-jának. Amint ez a második platform választ ad a kérésre, az API visszahozza azt az első platformra, és a személy megkapja a szükséges információkat.
A Transcribathon platform pontosan így használja a metagrapho API-t. Ha egy önkéntes automatikus átiratot szeretne kapni egy szövegről, akkor ezt a Transcribathon platformon kéri. A Transcribathon ezután elküldi ezt a kérést a metagrafikus API-nak, amely kézírás-felismerő technológiát használ a kép feldolgozásához és automatikus átírás létrehozásához. Végül, miután a feldolgozás befejeződött, a Transcribathon platform hozzáférhet a transzkripcióhoz, és megmutathatja azt az önkéntesnek, ismét a metagrapho API-n keresztül.
A metagrafikus API nemcsak a transzkripciót biztosítja, hanem a képen található minden egyes sor vagy akár szó koordinátáit is - ami a Transcribathon régi verziójában nem volt lehetséges. Ez a funkció lehetővé teszi a transzkripciók további alkalmazásokhoz való használatát, például az egyező kulcsszavak kiemelését a szövegben a teljes szövegű keresés során.
Továbbfejlesztett transzkripciós szerkesztő
A Transcribathon mögött álló technológia frissítése azt jelentette, hogy a transzkripciós szerkesztő - az a rész, amelyet egy önkéntes használ a transzkripciók bevitelére - már nem tudott megbirkózni a metagrafikus API-ból kapott gazdagabb adatformátummal. Ezért a READ-COOP egyedi transzkripciós szerkesztőt épített a Transcribathon számára. Ez lehetővé teszi az emberek számára, hogy rákattintsanak az átírás egy sorára, és megtekintsék a megfelelő sort a szöveg képén.
A folyamat felgyorsítása érdekében a READ-COOP a Transkribus szoftver meglévő szerkesztőjét a Transcribathon követelményeihez igazította, és widgetté alakította. A widgetet ezután egyszerűen beillesztették a Transcribathon platformba, lehetővé téve a felhasználók számára a metagrafikus API által generált átírások elérését és szerkesztését. A meglévő Transkribus szerkesztő használata és egyszerű módosítása értékes fejlesztési időt és költségeket is megtakarított.
Az együttműködés ereje
Ezek a technológiai frissítések a Transcribathon-t a következő szintre emelik. Ahelyett, hogy időigényes transzkripciókat hoznának létre a semmiből, az önkéntesek egyszerűen kijavíthatják az automatikusan generált transzkripciókat az új transzkripciós szerkesztőben, segítve őket abban, hogy sokkal több dokumentumot dolgozzanak fel egy futás során.
A READ-COOP jelenleg a Transcribathon-ban már átírt vagy hamarosan átírandó anyagok alapján képzi a kézzel írott szövegfelismerő MI-modelleket. Minél jobban igazodik az MI-modell a fókuszban lévő anyaghoz, annál pontosabbak lesznek az automatikus átírások.
Az egyik közelgő Transcribathon Run például a zágrábi Állami Levéltárból származó adagolókártyák szkennelését fogja tartalmazni, amelyeket a második világháború alatt (1941-től 1945-ig) az élelmiszerek és egyéb erőforrások elosztásának egyik formájaként használtak. A kártyák demográfiai és társadalmi-gazdasági mutatókat tartalmaznak az egyénekre és/vagy háztartásokra vonatkozóan, például címeket, munkahelyeket, és ezért kutatási anyagok gazdag forrását jelentik.
A futás előkészítéseként a READ-COOP webináriumot tartott az archívum munkatársaival, hogy bemutassa nekik, hogyan kell előkészíteni a képzési adatokat. Ezeket a képzési adatokat ezután egy kézírásos modell betanítására vagy a motor ilyen típusú dokumentumok olvasására való „tanítására” használják, hogy az a futás során pontosabb átiratokat tudjon biztosítani. Ennek az önkéntesek lektorálási készségével együtt lehetővé kell tennie a zágrábi archívum számára, hogy minden eddiginél nagyobb számú dokumentumot digitalizáljon.
Tudjon meg többet
Ebben a videóban megtekintheti a képzési adatok elkészítésének módjáról szóló webináriumot. Az automatikus kézírásos szövegfelismerés szerkesztőjének integrációját a Transcribathon platformon találja, és megtekintheti a dublini dokumentumok első eredményeit.
Ezt a bejegyzést írta Fiona Park, Content Manager READ-COOP SCE, és Philip Kahle, Software Developer, READ COOP.
