Vuonna 2016 käynnistettyä Transcribathon-alustaa on kehitetty edelleen kahdessa Generic Services -hankkeessa: Enrich Europeana (2018–2020) ja Enrich Europeana Plus (2021–2023). Alustan avulla vapaaehtoiset voivat kirjoittaa käsinkirjoitettuja historiallisia tekstejä eri kielillä ja eri aikakausilta käyttäen vain tietokonettaan. Hankkeiden käynnistymisen jälkeen vapaaehtoiset ovat kopioineet yli 372 000 asiakirjaa ja muuttaneet ne digitaalisiksi tekstitiedostoiksi, mikä on auttanut laajentamaan ja rikastuttamaan Europeanan laajoja digitaalisen kulttuuriperinnön kokoelmia.
Vuonna 2021 Enrich Europeana Plus -hankkeessa alettiin päivittää Transcribathon-alustaa kehittyneellä käsinkirjoituksen tunnistustekniikalla, joka käyttää tekoälyä automaattisten transkriptioiden tarjoamiseen, jotka vapaaehtoiset voivat sitten tarkistaa. Yksi suurimmista tällaisen teknologian tarjoajista on READ-COOP , joka on suosittua Transkribus-ohjelmistoa hallinnoiva eurooppaosuuskunta. Enrich Europeana Plus vietti useita kuukausia työskennellen READ-COOPin kanssa ja sisällyttäen heidän teknologiansa Transcribathon-alustaan.
Transcribathonin yhdistäminen metagrafian sovellusrajapintaan
Transkribus-ohjelmisto on kehitetty osana Innsbruckin yliopiston johtamaa EU:n rahoittamaa hanketta, ja sen avulla historialliset käsinkirjoitetut asiakirjat voidaan automaattisesti kopioida laajamittaisesti. Teknologia käyttää tekoälyä tiettyjen käsialatyyppien lukemisen ”oppimiseen” ja toteuttaa sitten tämän tietämyksen tekstien automaattisten transkriptioiden luomiseksi. Tämä nopeuttaa huomattavasti transkriptioprosessia: transkription kirjoittajan ei enää tarvitse käyttää tunteja transkription kirjoittamiseen tyhjästä, koska hän voi sen sijaan tarkistaa automaattisen transkription.
Käsialan tunnistustekniikka, kuten Transkribus, on erityisen ihanteellinen kansalaistieteellisiin hankkeisiin. Mitä helpompi näiden asiakirjojen transkriptio on, sitä enemmän asiakirjoja vapaaehtoiset voivat käsitellä tietyssä ajassa ja sitä nopeammin Europeanan verkkosivustoa voidaan rikastuttaa. Transcribathon-tiimi halusi siksi ottaa tämän teknologian käyttöön alustalla.
Tätä varten he päättivät käyttää READ-COOPin metagraafista API-rajapintaa, jotta Transcribathon voi käyttää Transkribus-teknologiaa. API on ohjelmisto, joka toimii välittäjänä kahden eri alustan välillä. Joku pyytää tietoja yhdellä alustalla, ja alusta lähettää tämän pyynnön toisen alustan API: lle. Kun tällä toisella alustalla on vastaus pyyntöön, API tuo sen takaisin ensimmäiselle alustalle ja henkilö saa tarvitsemansa tiedot.
Transcribathon-alusta käyttää metagrapho APIa juuri tällä tavalla. Kun vapaaehtoinen haluaa saada automaattisen transkription tekstistä, he pyytävät tätä Transcribathon-alustalla. Transcribathon lähettää tämän pyynnön metagrapho API: lle, joka käyttää käsinkirjoituksen tunnistustekniikkaa kuvan käsittelyyn ja automaattisen transkription luomiseen. Lopuksi, kun käsittely on valmis, Transcribathon-alusta voi käyttää transkriptiota ja näyttää sen vapaaehtoiselle, jälleen metagrapho API: n kautta.
Metagrapho API ei ainoastaan tarjoa transkriptiota, vaan myös koordinaatit jokaiselle kuvassa olevalle riville tai jopa sanalle - mikä ei ollut mahdollista Transcribathonin vanhassa versiossa. Tämän ominaisuuden avulla voidaan sitten käyttää transkriptioita muihin sovelluksiin, kuten vastaavien avainsanojen korostamiseen tekstissä kokotekstihaun aikana.
Parannettu transkriptioeditori
Transcribathonin taustalla olevan teknologian päivittäminen tarkoitti, että transkriptioeditori - osa, jota vapaaehtoinen käyttää transkriptioiden syöttämiseen - ei enää pystynyt selviytymään rikkaammasta tietomuodosta, jonka se sai takaisin metagrapho API: sta. Siksi READ-COOP rakensi mukautetun transkriptioeditorin Transcribathonille. Näin ihmiset voivat napsauttaa transkription riviä ja nähdä vastaavan rivin tekstin kuvassa.
Prosessin nopeuttamiseksi READ-COOP otti Transkribus-ohjelmiston nykyisen editorin, muokkasi sen vastaamaan Transcribathonin vaatimuksia ja muutti sen widgetiksi. Widget lisättiin sitten yksinkertaisesti Transcribathon-alustaan, jolloin käyttäjät voivat käyttää ja muokata metagrapho API: n tuottamia transkriptioita. Käyttämällä olemassa olevaa Transkribus-editoria ja yksinkertaisesti muokkaamalla sitä säästi myös arvokasta kehitysaikaa ja kustannuksia.
Yhteistyön voima
Nämä teknologiset päivitykset vievät Transcribathonin seuraavalle tasolle. Sen sijaan, että luotaisiin aikaa vieviä transkriptioita tyhjästä, vapaaehtoiset voivat nyt yksinkertaisesti korjata automaattisesti luodut transkriptiot uudessa transkriptioeditorissa, mikä auttaa heitä käsittelemään paljon enemmän asiakirjoja juoksun aikana.
READ-COOP kouluttaa parhaillaan käsinkirjoitettuja tekstintunnistus-tekoälymalleja Transcribathonissa jo litteroidun tai pian litteroitavan materiaalin pohjalta. Mitä paremmin tekoälymalli mukautuu kohteena olevaan materiaaliin, sitä tarkempia automaattiset transkriptiot ovat.
Esimerkiksi yhdessä tulevassa Transcribathon Run -tapahtumassa skannataan Zagrebin valtionarkiston annoskortteja, joita käytettiin toisen maailmansodan aikana (vuodesta 1941 1945) ruoan ja muiden resurssien säännöstelyn muotona. Kortit sisältävät yksityishenkilöitä ja/tai kotitalouksia koskevia demografisia ja sosioekonomisia indikaattoreita, kuten nimikkeitä ja työpaikkoja, ja siksi ne ovat runsaasti tutkimusaineistoa.
Tämän juoksun valmistelemiseksi READ-COOP järjesti webinaarin arkiston työntekijöiden kanssa näyttääkseen heille, miten koulutustiedot valmistellaan. Näitä koulutustietoja käytetään sitten käsialamallin kouluttamiseen tai moottorin ”opettamiseen” tämäntyyppisten asiakirjojen lukemiseen, jotta se voi tarjota tarkemmat transkriptiot ajon aikana. Yhdessä vapaaehtoisten oikolukutaitojen kanssa Zagrebin arkiston pitäisi pystyä digitoimaan suurempi määrä asiakirjoja kuin koskaan ennen.
Lue lisää
Videolla voi tutustua koulutustietojen valmistelua koskevaan verkkoseminaariin. Löydät automaattisen käsinkirjoitetun tekstintunnistuksen editorin integroinnin Transcribathon-alustalla ja voit tutustua Dublin-papereiden ensimmäisiin tuloksiin.
Tämän viestin ovat kirjoittaneet Fiona Park, Content Manager READ-COOP SCE ja Philip Kahle, ohjelmistokehittäjä, READ COOP.
