Marco Rendina: Kezdjük az OCR kicsomagolásával. Miről van szó, és miért fontos a kulturális örökség megőrzése szempontjából?
Tom Vanallemeersch: Az OCR (Optikai karakterfelismerés) vagy HTR (Kézzel írt szövegfelismerés) egy olyan technológia, amely nyomtatott vagy kézzel írt szövegek digitális átiratát állítja elő. A szkennelt dokumentumok átírása elsősorban a kereshetőség szempontjából fontos, mivel lehetővé teszi a kulcsszavak használatát egy adott dokumentum kereséséhez vagy egy dokumentum egy adott részének kereséséhez. A kereshetőség további javítása érdekében az átírások gépi fordítással fordíthatók le, lehetővé téve a felhasználók számára, hogy különböző nyelveken keressenek szavakat a dokumentumokban, például csak egy angol keresési kifejezést használva.
MR: Mennyire hatékony a legkorszerűbb OCR technológia?
TV: Az utóbbi években figyelemre méltó előrelépés történt az OCR technológiában, és egyes OCR modellek lenyűgözően jól teljesítenek, különösen a modern nyomtatott szövegeken. Az egyre inkább specializált modellek széles választéka is kielégíti a különböző igényeket, például a 18. századi szövegeket vagy a kézzel írt második világháborús leveleket.
Ezen előrelépések ellenére azonban a kihívások továbbra is fennállnak olyan tényezők miatt, mint a különböző kézírási stílusok és szövegelrendezések, az érintett nyelvek vagy a „zaj” jelenléte (leromlott karakterek vagy átvéreztetés a kétoldalas dokumentumokban, ahol a hátoldal tintája az elülső oldalon jelenik meg). Az olyan problémák, mint a karakterek téves felismerése, drámaian befolyásolhatják az OCR-átírások pontosságát, ami különösen akkor válik nyilvánvalóvá, ha ezeket a kimeneteket fordítási célokra használják.
A CrossLangnál a többnyelvű dokumentumfeldolgozási és fordításautomatizálási rendszerek fejlesztése során szerzett tapasztalataink alapján ezeket a kihívásokat szemtől szemben kezeltük annak biztosítása érdekében, hogy az OCR kimenet ne csak pontos, hanem fordításra kész is legyen.
MR: Elmondaná, hogyan készíti el az OCR transzkripciókat fordításra?
TV: Hát persze, hogy az. A transzkripciók fordításra kész állapotba hozása többlépcsős folyamat.
Először feltöltik a dokumentumot vagy képet, és az OCR technológiát alkalmazzák a digitális átirat létrehozásához. Ez magában foglalja az oldal elrendezésének elemzését és a szövegterületek karaktereinek azonosítását. Mivel ez a folyamat automatizált, a kapott kimenet olyan hibákat tartalmazhat, mint a karakter téves felismerése és a hiányzó szóközök. Ezenkívül az OCR kimenet általában nem szegmentálódik, nyomtatott vagy kézzel írt karakterek sorait jeleníti meg a képen, anélkül, hogy mondatokra szegmentálná. Bár ez mindaddig rendben lehet, amíg a végfelhasználó el tudja olvasni a szöveget az eredeti nyelven, az OCR kimenet közvetlen használata, beleértve a helyesírási hibákat és a szegmentálás hiányát, nagy valószínűséggel pontatlan fordításokat eredményez.
Különböző technikákat alkalmazunk e pontatlanságok kezelésére. Két fő megközelítést fogok megemlíteni. Először is, szegmentálási és dehyphenation technikákat alkalmaznak a mondatok azonosítására és elválasztására a szövegen belül, és a sorok végén lévő szószaggató kötőjelek eltávolítására. Másodszor, az OCR kimenet pontosságának további növelése érdekében lexikon alapú eszközöket és nagy nyelvi modelleket (LLM) használunk, beleértve a nyílt forráskódú chatbotokat is, a szavak hibáinak automatikus azonosítására és javítására, hogy a szöveget a lehető legközelebb állítsuk az eredeti képhez.
Végül a korrigált OCR kimenettel az MT pontosabb fordítások készítésére is alkalmazható. Ez a lépés a beviteli szöveg minőségén alapul, így az előző két automatikus korrekciós lépés elengedhetetlen a hasznos MT-eredmények eléréséhez.

MR: Hogyan értékeli, hogy ez a korrekciós folyamat sikeres volt-e?
TV: Automatizált mérőszámokat, például karakterhiba-rátát (CER) és fordításszerkesztési rátát (TER) használunk a korrigált OCR-kimenet és fordítás pontosságának és minőségének értékelésére. Ezek a mérőszámok lehetővé teszik számunkra, hogy összehasonlítsuk a korrigált OCR kimenetet a földi igazsággal (a kívánt átírással), értékes betekintést nyújtva módszereink hatékonyságába. E tekintetben jelentős javulást figyeltünk meg, mivel mind a CER, mind a TER általában csökken az OCR-kibocsátás korrekciója után.
Alkalmanként manuális ellenőrzéseket is végzünk a szöveg általános pontosságának biztosítása érdekében, mivel még egy kisebb hiba is megváltoztathatja a mondat jelentését, ami félreértésekhez vagy pontatlanságokhoz vezethet. Előfordulhatnak olyan esetek is, amikor valaki (például egy történész) meg kívánja őrizni a szöveg bizonyos elemeit, beleértve az esetleges hibákat (például a helytelenül megfogalmazott szavakat); ilyen esetekben előfordulhat, hogy az LLM „túljavul” (hasonlóképpen helyettesítheti a nyelv régebbi változatában írt szavakat az újabb változatokkal). Az ilyen megőrzés-orientált forgatókönyvek („diplomáciai átírás”) gondos manuális ellenőrzést igényelnek.
MR: Milyen tanácsot adna azoknak a kulturális örökséget ápoló intézményeknek, amelyek fejlett OCR- és fordítási technológiákat kívánnak beépíteni megőrzési erőfeszítéseikbe?
TV: A legfontosabb tanács, amit adhatok, hogy szorosan kövessem az AI4Culture projekt fejleményeit. 2024 októberében online workshopot kínálunk a kulturális örökséggel foglalkozó diákok és szakértők számára, ahol gyakorlati módon elmagyarázzuk az OCR és az MT alkalmazását a szkennelt dokumentumokra, és néhány technikai részletet nyújtunk olyan szempontokról, mint például az OCR kimenetének automatikus korrekciója. Kövesse az AI4Culture közösségimédia-fiókjait.
Tudjon meg többet
2024 szeptemberében az AI4Culture projekt elindít egy platformot, ahol a fent bemutatott OCR-eszközökhöz hasonló nyílt eszközöket, valamint a kapcsolódó dokumentációt és képzési anyagokat online elérhetővé teszik. Tartsa szemmel az Europeana Pro projektoldalát a további részletekért, és tartsa a kapcsolatot a projekt LinkedIn és X fiókjával!
