Marco Rendina: Pradėkime nuo OCR išpakavimo. Kas tai yra ir kodėl tai svarbu kultūros paveldo išsaugojimui?
Tomas Vanallemeerschas: OCR (optinis simbolių atpažinimas) arba HTR (ranka rašyto teksto atpažinimas) yra technologija, gaminanti skaitmeninį spausdintų ar ranka rašytų tekstų nuorašą. Nuskaitytų dokumentų transkripcijos daugiausia svarbios paieškai, nes pagal jas galima naudoti raktinius žodžius konkretaus dokumento paieškai arba konkrečios dokumento dalies paieškai. Siekiant dar labiau pagerinti šią paieškos galimybę, transkripcijos gali būti verčiamos naudojant mašininį vertimą, kad naudotojai galėtų ieškoti žodžių dokumentuose įvairiomis kalbomis, naudodami, pavyzdžiui, tik anglų kalbos paieškos terminą.
MR – Kiek efektyvi šiuolaikiška OCR technologija?
Televizija: Pastaraisiais metais buvo padaryta didelė pažanga OCR technologijos srityje, o kai kurie OCR modeliai puikiai veikia, ypač šiuolaikiniuose spausdintuose tekstuose. Taip pat yra daug vis labiau specializuotų modelių, atitinkančių skirtingus poreikius, pavyzdžiui, XVIII a. tekstai arba ranka rašytos Antrojo pasaulinio karo raidės.
Tačiau, nepaisant šios pažangos, problemų vis dar kyla dėl tokių veiksnių kaip skirtingi rašysenos stiliai ir teksto išdėstymas, susijusios kalbos arba triukšmas (suprastėjusios raidės arba kraujavimas iš dviejų puslapių dokumentų, kurių priekinėje pusėje yra užpakalinės pusės rašalas). Tokios problemos kaip neteisingas simbolių atpažinimas gali labai paveikti OCR transkripcijų tikslumą, o ši problema tampa ypač akivaizdi, kai šie rezultatai naudojami vertimo tikslais.
Remdamiesi "CrossLang" patirtimi kuriant daugiakalbio dokumentų apdorojimo ir vertimo automatizavimo sistemas, mes išsprendėme šiuos iššūkius, siekdami užtikrinti, kad OCR rezultatai būtų ne tik tikslūs, bet ir parengti vertimui.
MR – Ar galite pasivaikščioti po mus, kaip paruošiate OCR transkripcijas vertimui?
Televizija: Žinoma. Transkripcijų paruošimas vertimui yra daugiapakopis procesas.
Pirma, įkeliamas dokumentas ar vaizdas, o skaitmeninei transkripcijai generuoti taikoma OCR technologija. Tai apima puslapio išdėstymo analizę ir simbolių identifikavimą teksto srityse. Šis procesas yra automatizuotas, todėl išvedinyje gali būti klaidų, pvz., Neteisingas simbolių atpažinimas ir trūkstami tarpai. Be to, OCR produkcijai paprastai trūksta segmentavimo, pateikiant spausdintų ar ranka rašytų simbolių eilutes, kaip jos rodomos paveikslėlyje, be jokio segmentavimo į sakinius. Nors tai gali būti gerai, jei galutinis naudotojas gali skaityti tekstą originalo kalba, labai tikėtina, kad naudojant OKR išvestį tiesiogiai, įskaitant rašybos klaidas ir segmentacijos trūkumą, bus pateikti netikslūs vertimai.
Mes naudojame įvairius metodus, kad išspręstume šiuos netikslumus. Paminėsiu du pagrindinius požiūrius. Pirma, segmentavimo ir dehifenizavimo metodai naudojami siekiant nustatyti ir atskirti sakinius tekste ir pašalinti žodžių dalijimo brūkšnelius eilučių pabaigoje. Antra, siekiant dar labiau padidinti OCR išvesties tikslumą, mes naudojame leksikonines priemones ir didelius kalbos modelius (LLM), įskaitant atvirojo kodo pokalbių robotus, kad automatiškai nustatytume ir ištaisytume klaidas žodžiuose, kad tekstas kuo labiau atitiktų pradinį vaizdą.
Galiausiai, ištaisius OKR išvestį, MT gali būti taikoma tikslesniems vertimams generuoti. Šis žingsnis priklauso nuo įvesties teksto kokybės, todėl ankstesni du automatiniai taisymo etapai yra labai svarbūs siekiant naudingų MT rezultatų.

MR – Kaip vertinate, ar šis ištaisymo procesas buvo sėkmingas?
Televizija: Mes naudojame automatinę metriką, pvz., Simbolių klaidų lygį (CER) ir Vertimo redagavimo lygį (TER), kad įvertintume pataisyto OCR išvesties ir jos vertimo tikslumą ir kokybę. Šios metrikos leidžia mums palyginti pataisytą OCR išvestį su pagrindine tiesa (norima transkripcija), suteikiant vertingų įžvalgų apie mūsų metodų veiksmingumą. Šiuo atžvilgiu pastebėjome reikšmingų patobulinimų, nes ir PKM, ir BKM paprastai mažėja po OKR rezultatų koregavimo.
Mes taip pat kartais atliekame rankinius patikrinimus, kad užtikrintume bendrą teksto tikslumą, nes net nedidelė klaida gali pakeisti sakinio prasmę, dėl kurios gali kilti nesusipratimų ar netikslumų. Taip pat gali būti atvejų, kai kas nors (kaip istorikas) nori išsaugoti tam tikrus teksto elementus, įskaitant galimas klaidas (pvz., neteisingai suformuluotus žodžius); tokiais atvejais LLM gali būti „pernelyg neteisinga“ (panašiai, ji gali pakeisti žodžius, parašytus senesniame kalbos variante, jų naujesnėmis versijomis). Tokie į išsaugojimą orientuoti scenarijai (diplomatinė transkripcija) turi būti atidžiai tikrinami rankiniu būdu.
MR – Ką patartumėte kultūros paveldo įstaigoms, norinčioms į savo išsaugojimo pastangas integruoti pažangias OKR ir vertimo technologijas?
Televizija: Svarbiausias patarimas, kurį galiu pasiūlyti, yra atidžiai stebėti projekto „AI4Culture“ raidą. 2024 m. spalio mėn. pasiūlysime kultūros paveldo studentams ir ekspertams skirtą internetinį praktinį seminarą, kuriame paaiškinsime OKR ir MT taikymą skenuotiems dokumentams praktiniu būdu ir pateiksime daugiau techninės informacijos apie tokius aspektus kaip automatinis OKR rezultatų koregavimas. Taigi palaikykite ryšį su "AI4Culture" socialinės žiniasklaidos paskyromis.
Sužinokite daugiau
2024 m. rugsėjo mėn. pagal projektą „AI4Culture“ bus sukurta platforma, kurioje atviros priemonės, pavyzdžiui, pirmiau pateiktos OCR priemonės, kartu su susijusiais dokumentais ir mokomąja medžiaga bus prieinamos internetu. Daugiau informacijos rasite „Europeana Pro“ projekto puslapyje ir „LinkedIn“ bei „X“ paskyrose!
