La sfida dei metadati multilingue
Europeana lavora con collezioni descritte in non meno di 37 lingue e si sforza di abbinarle a termini di ricerca che possono verificarsi in qualsiasi lingua. Tutti gli elementi delle collezioni presenti sul sito Europeana sono descritti in una serie di campi di metadati che trasmettono informazioni essenziali su di essi, come il titolo e il creatore. Queste informazioni aiutano le persone a scoprire e comprendere gli oggetti a cui sono interessati. Attualmente la maggior parte delle registrazioni contiene termini in un'unica lingua, la lingua dei fornitori di dati. Questa mancanza di metadati multilingue ostacola l'obiettivo di Europeana di offrire un ampio accesso alla sua raccolta in tutte le lingue.
Affrontare il multilinguismo in questo senso è un'impresa piuttosto impegnativa. Innanzitutto, i metadati non sono un linguaggio naturale con frasi complete e grammatica prevedibile; è spesso presentato in frasi brevi o anche in singole parole, il che significa che il contesto necessario per una traduzione accurata è difficile da trovare. Inoltre, i termini utilizzati possono essere molto specifici; possono sembrare un termine generico, ma hanno un significato diverso se utilizzati in un contesto di patrimonio culturale.
Ad esempio, il termine religioso greco che riflette l'Ultima Cena potrebbe essere erroneamente tradotto come Cena Segreta. La ripercussione di questa traduzione imprecisa - o l'assenza di una traduzione in inglese - sarebbe che i manufatti greci con un titolo o una descrizione che si riferiscono al particolare tema non apparirebbero tra i risultati quando qualcuno cerca dipinti sull'Ultima Cena sul sito web di Europeana.
Costruire un ponte tra Europeana e le comunità dei servizi digitali di eTranslation
In che modo il progetto Europeana Translate collabora con altri portatori di interessi e strumenti per affrontare questa sfida?
Sviluppato dalla Commissione europea, eTranslation è uno strumento linguistico creato utilizzando le più recenti tecnologie di IA ed è stato formato sulle grandi quantità di dati disponibili sia internamente che raccolti attraverso uno sforzo di raccolta di risorse linguistiche a livello dell'UE. Nell'archivio ELRC-SHARE utilizzato dall'ISD eTranslation, il patrimonio culturale è sottorappresentato e, di conseguenza, le soluzioni tecnologiche esistenti sono meno attrezzate per gestire gli aspetti specifici dei dati sul patrimonio culturale.
In tale contesto, la creazione di collaborazioni tra le parti interessate delle comunità di Europeana e eTranslation è fondamentale per personalizzare gli strumenti di traduzione automatica in modo che possano soddisfare le particolari esigenze del settore del patrimonio culturale. Europeana Translate cerca di riunire l'eTranslation e le comunità di Europeana per affrontare le sfide incontrate da entrambi i settori. Migliorare l'accesso multilingue al patrimonio culturale digitale richiede una serie di ruoli e competenze complementari, che sono serviti dai diversi partner di Europeana Translate (cfr.qui).
Esperimenti con la traduzione automatica
Negli ultimi mesi, i partner del progetto hanno lavorato insieme per selezionare e segmentare in modo appropriato e cancellare i record di metadati dal sito web di Europeana. Questi dati sono stati poi sfruttati dal partner del progetto Pangeanic, che li ha utilizzati in aggiunta a 12 milioni di segmenti testuali di traduzione da risorse linguistiche generiche esistenti per migliorare l'accuratezza degli algoritmi di traduzione automatica nella traduzione dei metadati del patrimonio culturale.
Pangeanic ha condotto una serie di esperimenti considerando diverse combinazioni di dati di allenamento. Ciò comprendeva metadati bilingue di Europeana, dati sintetici prodotti da metadati in una lingua e vocabolari multilingue pertinenti al settore del patrimonio culturale. Sono state prese in considerazione anche fonti alternative di dati, al di là di Europeana, per le lingue per le quali esistono poche o nessuna risorsa con traduzioni in inglese. La valutazione automatica di questi esperimenti utilizzando metriche consolidate ha permesso ai partner di decidere l'impostazione per le traduzioni automatiche di migliore qualità e confrontarle con i risultati ottenuti da altri strumenti di traduzione, come Google Translate ed eTranslate. In generale, la valutazione dimostra miglioramenti nei risultati rispetto ai modelli generici per la maggior parte delle lingue.
I motori di traduzione automatica risultanti da questo processo saranno utilizzati per tradurre i metadati dalle 23 lingue ufficiali dell'UE all'inglese (la 24a lingua ufficiale). Questi motori di traduzione saranno utilizzati per generare traduzioni automatiche in inglese per almeno 25 milioni di record di metadati sulla piattaforma Europeana. Le traduzioni saranno indicizzate e visualizzate, migliorando l'esperienza utente multilingue sulla piattaforma Europeana. Rivisitando la persona che cerca manufatti ispirati al tema religioso dell'Ultima Cena, dopo il completamento di Europeana Translate, potranno accedere anche a dipinti provenienti da Grecia, Romania e molti altri paesi che attualmente non sono inclusi nei risultati di ricerca.
Inoltre, Europeana Translate metterà apertamente a disposizione le risorse linguistiche selezionate e opportunamente elaborate che ha prodotto attraverso il repository ELRC-SHARE sotto una licenza di riutilizzo gratuito (CC0). Ciò consentirà alla comunità della traduzione automatica di utilizzare i dati aperti per formare, adattare e testare i propri servizi di traduzione nel settore del patrimonio culturale.
Coinvolgere gli esseri umani nel ciclo
Nei prossimi mesi, due valutazioni complementari delle traduzioni automatiche prodotte dagli esperimenti saranno effettuate da linguisti e professionisti del patrimonio culturale.
Lo strumento di valutazione della traduzione automatica verrà utilizzato per valutare l'accuratezza e le prestazioni di tutti i 23 motori di traduzione. Saranno organizzate tre campagne di crowdsourcing per coinvolgere i professionisti del patrimonio culturale affinché contribuiscano a testare e valutare la traduzione automatica (le lingue da valutare a tale riguardo includono il francese, l'italiano e l'olandese). Le campagne coinvolgeranno anche il pubblico e sensibilizzeranno la comunità del patrimonio culturale sul potere dei servizi di traduzione automatica. La piattaforma CrowdHeritage sarà utilizzata per presentare le traduzioni automatiche nel contesto dei beni del patrimonio culturale a cui si riferiscono.
I risultati di tali valutazioni forniranno informazioni utili e saranno utilizzati per determinare la soglia di qualità accettabile per la pubblicazione di traduzioni automatiche su Europeana e per l'utilizzo sulle piattaforme delle organizzazioni per il patrimonio culturale.
Scopri di più e partecipa
Per saperne di più, puoi guardare un video introduttivo, un video sui primi risultati del progetto, o leggere l'architettura di Europeana Translate in questo documento presentato all'Associazione europea per la traduzione automatica 2022. I professionisti nel campo dell'audiovisivo, della moda e dei musei avranno la possibilità di contribuire al progetto aiutando a valutare i risultati nelle nostre campagne di approvvigionamento di nicchia, che si terranno all'inizio del 2023. Tieni d'occhio la pagina dell'evento Europeana Pro per saperne di più.
