Incontri ravvicinati con l'IA: trascrivere il testo del patrimonio culturale multilingue con l'IA

Pubblicato 18 luglio 2024 di

Marco Rendina (European Fashion Heritage Association)

Tom Vanallemeersch (CrossLang)

Marco Rendina: Iniziamo disimpacchettando l'OCR. Che cos'è e perché è rilevante per la conservazione del patrimonio culturale?

Tom Vanallemeersch: OCR (Optical Character Recognition) o HTR (Handwritten Text Recognition) è una tecnologia che produce una trascrizione digitale di testi stampati o scritti a mano. Le trascrizioni di documenti scansionati sono principalmente importanti per la ricercabilità in quanto consentono di utilizzare le parole chiave per cercare un documento specifico o per cercare una parte specifica all'interno di un documento. Per migliorare ulteriormente questa ricercabilità, le trascrizioni possono essere tradotte utilizzando la traduzione automatica, consentendo agli utenti di cercare parole in documenti in diverse lingue utilizzando, ad esempio, solo un termine di ricerca in inglese.

MR: Quanto è efficace l'attuale tecnologia OCR all'avanguardia?

TV: Gli ultimi anni hanno visto notevoli progressi nella tecnologia OCR e alcuni modelli OCR hanno prestazioni impressionanti, specialmente sui moderni testi stampati. C'è anche una vasta gamma di modelli sempre più specializzati che soddisfano diverse esigenze, come testi del XVIII secolo o lettere scritte a mano della seconda guerra mondiale.

Tuttavia, nonostante questi progressi, le sfide persistono a causa di fattori quali diversi stili di scrittura a mano e layout del testo, le lingue coinvolte o la presenza di "rumore" (caratteri degradati o sanguinamento nei documenti a doppia pagina, in cui l'inchiostro del retro appare sul lato anteriore). Problemi come il riconoscimento errato dei caratteri possono avere un impatto drammatico sull'accuratezza delle trascrizioni OCR, un problema che diventa particolarmente evidente quando questi output vengono utilizzati a fini di traduzione.

Sulla base della nostra esperienza in CrossLang con lo sviluppo di sistemi per l'elaborazione di documenti multilingue e l'automazione della traduzione, abbiamo affrontato queste sfide direttamente per garantire che l'output OCR non sia solo accurato, ma anche pronto per la traduzione.

MR: Puoi spiegarci come rendere le trascrizioni OCR pronte per la traduzione?

TV: Di certo. Rendere le trascrizioni pronte per la traduzione è un processo in più fasi.

In primo luogo, il documento o l'immagine viene caricato e la tecnologia OCR viene applicata per generare una trascrizione digitale. Ciò comporta l'analisi del layout della pagina e l'identificazione dei caratteri nelle aree di testo. Poiché questo processo è automatizzato, l'output risultante può contenere errori come il riconoscimento errato dei caratteri e gli spazi mancanti. Inoltre, l'output OCR in genere manca di segmentazione, presentando linee di caratteri stampati o scritti a mano come vengono visualizzati nell'immagine, senza alcuna segmentazione in frasi. Mentre questo potrebbe andare bene fino a quando l'utente finale può leggere il testo nella lingua originale, utilizzando l'output OCR direttamente, compresi i suoi errori di ortografia e la mancanza di segmentazione, molto probabilmente si tradurrà in traduzioni imprecise.

Utilizziamo varie tecniche per affrontare queste imprecisioni. Citerò due approcci principali. In primo luogo, le tecniche di segmentazione e deyphenation sono impiegate per identificare e separare le frasi all'interno del testo e rimuovere i trattini che separano le parole alla fine delle righe. In secondo luogo, per migliorare ulteriormente l'accuratezza dell'output OCR, utilizziamo strumenti basati sul lessico e Large Language Models (LLM), inclusi chatbot open source, per identificare e correggere automaticamente gli errori nelle parole per allineare il testo il più possibile con l'immagine originale.

Infine, con l'output OCR corretto, MT può essere applicato per generare traduzioni più accurate. Questo passaggio si basa sulla qualità del testo di input, rendendo i due passaggi di correzione automatica precedenti cruciali per ottenere risultati MT utili.

Fragment of a Dutch letter from World War II. Correcting errors in the OCR output using various techniques and identifying sentences in the output improves the results of automated translation.

MR: Come valuta se questo processo di correzione ha avuto successo?

TV: Utilizziamo metriche automatizzate come Character Error Rate (CER) e Translation Edit Rate (TER) per valutare l'accuratezza e la qualità dell'output OCR corretto e della sua traduzione. Queste metriche ci consentono di confrontare l'output OCR corretto con la verità di base (la trascrizione desiderata), fornendo preziose informazioni sull'efficacia dei nostri metodi. Abbiamo osservato miglioramenti significativi a questo proposito, poiché sia il CER che il TER generalmente diminuiscono dopo la correzione dell'output OCR.

Occasionalmente conduciamo anche ispezioni manuali per garantire l'accuratezza complessiva di un testo, poiché anche un errore minore potrebbe alterare il significato della frase, con possibili malintesi o imprecisioni. Ci possono anche essere casi in cui qualcuno (come uno storico) desidera preservare alcuni elementi del testo, inclusi potenziali errori (come parole scritte in modo errato); in tali casi, un LLM potrebbe "correggere eccessivamente" (analogamente, può sostituire le parole scritte in una variante precedente di una lingua con le loro versioni più recenti). Tali scenari orientati alla conservazione («trascrizione diplomatica») richiedono un’attenta ispezione manuale.

MR: Quali consigli daresti alle istituzioni del patrimonio culturale che vogliono integrare tecnologie OCR e di traduzione avanzate nei loro sforzi di conservazione?

TV: Il consiglio fondamentale che posso offrire è quello di seguire da vicino gli sviluppi del progetto AI4Culture. Nell'ottobre 2024, offriremo un workshop online rivolto a studenti ed esperti del patrimonio culturale, in cui spiegheremo l'applicazione di OCR e MT ai documenti scansionati in modo pratico e forniremo alcuni dettagli più tecnici su aspetti come la correzione automatica dell'output OCR. Quindi rimanete sintonizzati sugli account dei social media AI4Culture.

Scopri di più

Nel settembre 2024, il progetto AI4Culture lancerà una piattaforma in cui gli strumenti aperti, come gli strumenti OCR sopra presentati, saranno resi disponibili online, insieme alla relativa documentazione e ai materiali di formazione. Tieni d'occhio la pagina del progetto su Europeana Pro per maggiori dettagli e resta sintonizzato sul progetto LinkedIn e sull'account X!

Incontri ravvicinati con l'IA: trascrivere il testo del patrimonio culturale multilingue con l'IA

Condividi

Scopri di più

Scopri i contenuti correlati