Marco Rendina: Zacznijmy od rozpakowania OCR. Co to jest i dlaczego ma znaczenie dla zachowania dziedzictwa kulturowego?
Tom Vanallemeersch: OCR (Optical Character Recognition) lub HTR (Handwritten Text Recognition) to technologia, która tworzy cyfrowy transkrypt drukowanych lub odręcznych tekstów. Transkrypcje zeskanowanych dokumentów są ważne głównie ze względu na możliwość wyszukiwania, ponieważ umożliwiają użycie słów kluczowych do wyszukiwania określonego dokumentu lub do wyszukiwania określonej części w dokumencie. Aby jeszcze bardziej zwiększyć tę możliwość wyszukiwania, transkrypcje można tłumaczyć za pomocą tłumaczenia maszynowego, umożliwiając użytkownikom wyszukiwanie słów w dokumentach w różnych językach przy użyciu na przykład tylko wyszukiwanego terminu w języku angielskim.
MR: Jak skuteczna jest obecna najnowocześniejsza technologia OCR?
Telewizja: W ostatnich latach nastąpił znaczny postęp w technologii OCR, a niektóre modele OCR działają imponująco dobrze, zwłaszcza na nowoczesnych tekstach drukowanych. Istnieje również szeroka gama coraz bardziej wyspecjalizowanych modeli zaspokajających różne potrzeby, takich jak XVIII-wieczne teksty lub odręczne listy z II wojny światowej.
Pomimo tych postępów wyzwania utrzymują się jednak ze względu na takie czynniki, jak różne style pisma ręcznego i układy tekstu, języki lub obecność „szumu” (postaci zdegradowane lub przekrwione w dokumentach dwustronicowych, w których atrament z tyłu pojawia się na przedniej stronie). Problemy takie jak błędne rozpoznawanie znaków mogą dramatycznie wpłynąć na dokładność transkrypcji OCR, problem, który staje się szczególnie widoczny, gdy te wyjścia są wykorzystywane do celów tłumaczenia.
Opierając się na naszym doświadczeniu w CrossLang przy opracowywaniu systemów do wielojęzycznego przetwarzania dokumentów i automatyzacji tłumaczeń, podjęliśmy te wyzwania, aby zapewnić, że dane wyjściowe OCR są nie tylko dokładne, ale także gotowe do tłumaczenia.
MR: Czy możesz nam opowiedzieć, w jaki sposób przygotowujesz transkrypcje OCR do tłumaczenia?
Telewizja: Z pewnością. Przygotowanie transkrypcji do tłumaczenia jest procesem wieloetapowym.
Po pierwsze, dokument lub obraz jest przesyłany, a technologia OCR jest stosowana do generowania transkrypcji cyfrowej. Obejmuje to analizę układu strony i identyfikację znaków w obszarach tekstowych. Proces ten jest zautomatyzowany, wynik może zawierać błędy, takie jak błędne rozpoznawanie znaków i brakujące spacje. Ponadto na wyjściu OCR zazwyczaj brakuje segmentacji, prezentując linie drukowanych lub odręcznych znaków, które są wyświetlane na obrazie, bez segmentacji na zdania. Chociaż może to być w porządku, o ile użytkownik końcowy może odczytać tekst w języku oryginalnym, bezpośrednie użycie wyjścia OCR, w tym błędów ortograficznych i braku segmentacji, najprawdopodobniej spowoduje niedokładne tłumaczenia.
Stosujemy różne techniki, aby zaradzić tym niedokładnościom. Wspomnę o dwóch głównych podejściach. Po pierwsze, stosuje się techniki segmentacji i dehyphenation, aby zidentyfikować i oddzielić zdania w tekście i usunąć myślniki rozdzielające wyrazy na końcu linii. Po drugie, aby jeszcze bardziej zwiększyć dokładność wyników OCR, używamy narzędzi opartych na leksykonie i dużych modelach językowych (LLM), w tym chatbotów open source, do automatycznego identyfikowania i korygowania błędów w słowach, aby jak najdokładniej dostosować tekst do oryginalnego obrazu.
Wreszcie, z poprawionym wyjściem OCR, MT można zastosować do generowania tłumaczeń, które są dokładniejsze. Etap ten opiera się na jakości tekstu wejściowego, co sprawia, że dwa poprzednie etapy automatycznej korekty mają kluczowe znaczenie dla osiągnięcia użytecznych wyników MT.

MR: Jak oceniają Państwo, czy proces korekty zakończył się sukcesem?
Telewizja: Używamy automatycznych wskaźników, takich jak współczynnik błędu znaków (CER) i wskaźnik edycji tłumaczeń (TER), aby ocenić dokładność i jakość skorygowanego wyniku OCR i jego tłumaczenia. Mierniki te pozwalają nam porównać skorygowany wynik OCR z prawdą gruntową (pożądaną transkrypcją), zapewniając cenny wgląd w skuteczność naszych metod. Zaobserwowaliśmy znaczne ulepszenia w tym zakresie, ponieważ zarówno CER, jak i TER ogólnie zmniejszają się po korekcie produkcji OCR.
Czasami przeprowadzamy również ręczne inspekcje, aby zapewnić ogólną dokładność tekstu, ponieważ nawet niewielki błąd może zmienić znaczenie zdania, co może prowadzić do nieporozumień lub nieścisłości. Mogą również wystąpić przypadki, w których ktoś (jak historyk) chce zachować pewne elementy tekstu, w tym potencjalne błędy (takie jak nieprawidłowo napisane słowa); w takich przypadkach LLM może być „nadmiernie poprawny” (podobnie może zastąpić słowa napisane w starszym wariancie języka ich nowszymi wersjami). Takie scenariusze zorientowane na zachowanie („transkrypcja dyplomatyczna”) wymagają starannej kontroli ręcznej.
MR: Jakiej rady udzieliłby Pan instytucjom dziedzictwa kulturowego, które chcą włączyć zaawansowane OCR i technologie tłumaczeniowe do swoich działań na rzecz ochrony?
Telewizja: Najważniejszą radą, jaką mogę zaoferować, jest uważne śledzenie rozwoju projektu AI4Culture. W październiku 2024 r. zaproponujemy warsztaty internetowe skierowane do studentów i ekspertów zajmujących się dziedzictwem kulturowym, podczas których wyjaśnimy stosowanie OCR i MT do zeskanowanych dokumentów w praktyczny sposób i przedstawimy bardziej techniczne szczegóły dotyczące takich aspektów, jak automatyczna korekta wyników OCR. Bądź na bieżąco z kontami w mediach społecznościowych AI4Culture.
Dowiedz się więcej
We wrześniu 2024 r. w ramach projektu AI4Culture uruchomiona zostanie platforma, na której otwarte narzędzia, takie jak narzędzia OCR przedstawione powyżej, zostaną udostępnione online wraz z powiązaną dokumentacją i materiałami szkoleniowymi. Obserwuj stronę projektu na Europeana Pro, aby uzyskać więcej informacji i bądź na bieżąco z projektem LinkedIn i kontem X!
