Marco Rendina: Aloitetaan purkamalla OCR. Mikä se on ja miksi sillä on merkitystä kulttuuriperinnön säilyttämisen kannalta?
Tom Vanallemeersch: OCR (Optical Character Recognition) tai HTR (Handwritten Text Recognition) on teknologia, joka tuottaa digitaalisen transkription painetuista tai käsinkirjoitetuista teksteistä. Skannattujen asiakirjojen transkriptiot ovat pääasiassa tärkeitä hakukelpoisuuden kannalta, koska niiden avulla avainsanoja voidaan käyttää tietyn asiakirjan tai asiakirjan tietyn osan etsimiseen. Hakukelpoisuuden parantamiseksi transkriptiot voidaan kääntää konekäännöksellä, jolloin käyttäjät voivat hakea sanoja asiakirjoissa eri kielillä esimerkiksi vain englanninkielisellä hakutermillä.
MR: Kuinka tehokas on uusin OCR-tekniikka?
TV: Viime vuosina on tapahtunut merkittävää edistystä OCR-tekniikassa, ja jotkut OCR-mallit toimivat vaikuttavan hyvin, erityisesti nykyaikaisissa painetuissa teksteissä. Tarjolla on myös laaja valikoima yhä erikoistuneempia malleja, jotka palvelevat erilaisia tarpeita, kuten 1700-luvun tekstejä tai käsinkirjoitettuja toisen maailmansodan kirjeitä.
Näistä edistysaskeleista huolimatta haasteita on edelleen, mikä johtuu esimerkiksi erilaisista käsialatyyleistä ja tekstin asetteluista, käytetyistä kielistä tai melusta (heikennetyt merkit tai ylivuoto kaksisivuisissa asiakirjoissa, joissa takapuolen muste näkyy etupuolella). Merkkien virheellisen tunnistamisen kaltaiset ongelmat voivat vaikuttaa dramaattisesti OCR-transkriptioiden tarkkuuteen, mikä on erityisen ilmeinen ongelma, kun näitä tuotoksia käytetään käännöstarkoituksiin.
CrossLangissa monikielisten asiakirjojen käsittely- ja käännösautomaatiojärjestelmien kehittämisestä saamamme kokemuksen perusteella ratkaisimme nämä haasteet nopeasti varmistaaksemme, että OCR-tuloste ei ole vain tarkka, vaan myös käännösvalmis.
MR: Voitko opastaa meitä siinä, miten teet OCR-transkriptiot valmiiksi käännettäviksi?
TV: Varmasti. Transkriptioiden kääntäminen valmiiksi on monivaiheinen prosessi.
Ensinnäkin asiakirja tai kuva ladataan ja digitaalisen transkription luomiseen käytetään OCR-tekniikkaa. Tähän sisältyy sivun asettelun analysointi ja merkkien tunnistaminen tekstialueilla. Koska tämä prosessi on automatisoitu, tuloksena oleva tulos voi sisältää virheitä, kuten merkin virheellinen tunnistaminen ja puuttuvat välilyönnit. Lisäksi OCR-ulostulosta puuttuu tyypillisesti segmentointi, joka esittää painettujen tai käsinkirjoitettujen merkkien viivoja, kun ne näkyvät kuvassa, ilman segmentointia lauseisiin. Vaikka tämä voi olla hienoa niin kauan kuin loppukäyttäjä voi lukea tekstin alkuperäiskielellä, OCR-ulostulon käyttäminen suoraan, mukaan lukien sen kirjoitusvirheet ja segmentoinnin puute, johtaa hyvin todennäköisesti virheellisiin käännöksiin.
Käytämme erilaisia tekniikoita näiden epätarkkuuksien korjaamiseksi. Mainitsen kaksi pääasiallista lähestymistapaa. Ensinnäkin segmentointi- ja dehyfenaatiotekniikoita käytetään tunnistamaan ja erottamaan lauseita tekstissä ja poistamaan sanan jakavia yhdysviivoja rivien lopussa. Toiseksi, OCR-tuotoksen tarkkuuden parantamiseksi edelleen käytämme lexicon-pohjaisia työkaluja ja suuria kielimalleja (LLM), mukaan lukien avoimen lähdekoodin chatbotit, tunnistamaan ja korjaamaan sanojen virheet automaattisesti tekstin yhdenmukaistamiseksi mahdollisimman lähelle alkuperäistä kuvaa.
Korjatun OCR-tuotoksen avulla MT:tä voidaan käyttää tarkempien käännösten tuottamiseen. Tämä vaihe perustuu syöttötekstin laatuun, minkä vuoksi kaksi edellistä automaattista korjausvaihetta ovat ratkaisevan tärkeitä hyödyllisten MT-tulosten saavuttamiseksi.

MR: Miten arvioitte, onko korjausprosessi onnistunut?
TV: Käytämme automaattisia mittareita, kuten Merkkivirheaste (CER) ja Käännöksen muokkausaste (TER), arvioidaksemme korjatun OCR-tuotoksen ja sen käännöksen tarkkuutta ja laatua. Näiden mittareiden avulla voimme verrata korjattua OCR-lähtöä pohjatotuuteen (toivottuun transkriptioon), mikä antaa arvokkaita oivalluksia menetelmämme tehokkuudesta. Tilintarkastustuomioistuin on havainnut merkittäviä parannuksia tässä suhteessa, sillä sekä CER että TER yleensä vähenevät OCR-tuotoksen korjaamisen jälkeen.
Teemme ajoittain myös manuaalisia tarkastuksia tekstin yleisen tarkkuuden varmistamiseksi, sillä pienikin virhe voi muuttaa lauseen merkitystä, mikä voi johtaa väärinkäsityksiin tai epätarkkuuksiin. Voi myös olla tapauksia, joissa joku (kuten historioitsija) haluaa säilyttää tietyt tekstin osat, mukaan lukien mahdolliset virheet (kuten väärin kirjoitetut sanat); tällaisissa tapauksissa LLM saattaa ”korjata liikaa” (vastaavasti se voi korvata kielen vanhemmalla versiolla kirjoitetut sanat uudemmilla versioilla). Tällaiset säilyttämiseen tähtäävät skenaariot (”diplomaattiset transkriptiot”) edellyttävät huolellista manuaalista tarkastusta.
MR: Millaisia neuvoja antaisitte kulttuuriperintölaitoksille, jotka haluavat sisällyttää kehittyneet OCR- ja käännösteknologiat säilyttämispyrkimyksiinsä?
TV: Tärkein neuvo, jonka voin tarjota, on seurata tiiviisti AI4Culture-hankkeen kehitystä. Lokakuussa 2024 tarjoamme kulttuuriperintöalan opiskelijoille ja asiantuntijoille suunnatun verkkotyöpajan, jossa selitämme käytännönläheisesti OCR- ja MT-menetelmien soveltamista skannattuihin asiakirjoihin ja annamme teknisiä lisätietoja esimerkiksi OCR-tulosten automaattisesta korjaamisesta. Pysy siis kuulolla AI4Culturen sosiaalisen median tileillä.
Lue lisää
AI4Culture-hankkeessa käynnistetään syyskuussa 2024 alusta, jolla edellä esitettyjen OCR-välineiden kaltaiset avoimet välineet sekä niihin liittyvä dokumentaatio ja koulutusmateriaali asetetaan saataville verkossa. Seuraa Europeana Pron projektisivua saadaksesi lisätietoja ja pysy ajan tasalla projektin LinkedIn- ja X-tilistä!
