Abilitazione della traduzione automatica per l'arricchimento
Uno strumento API sviluppato dal partner di progetto Pangeanic rileva il linguaggio utilizzato nei metadati di Europeana e ne consente la traduzione automatica. Denominato Heritage Metadata Automatic Translation Service (HM ATS), questo strumento fa parte di una serie di strumenti di arricchimento semantico sviluppati da Europeana XX.
Per creare lo strumento, Pangeanic ha costruito 10 motori di traduzione automatica neurale (traducendo italiano, tedesco, ceco, greco, francese, svedese, catalano, olandese, polacco e spagnolo in inglese). Hanno utilizzato dati di formazione provenienti dagli archivi di Pangeanic e dati aperti su Internet. Pangeanic ha inoltre impiegato traduttori per tradurre una quantità limitata di documenti da archivi di Europeana al fine di disporre di dati di formazione specifici di Europeana per diverse lingue.
Lo strumento è stato utilizzato per tradurre e arricchire circa due milioni e mezzo di dischi durante il progetto. Pangeanic ha esteso e perfezionato con successo lo strumento per soddisfare i requisiti prestazionali di un volume di dati così elevato. Usa il codice API da solo.
Per valutare e convalidare la qualità della traduzione automatica, i partner hanno anche istituito un sistema di convalida della traduzione (basato su LabelStudio). I professionisti del patrimonio culturale e i madrelingua delle lingue pertinenti hanno convalidato più di 2.700 traduzioni utilizzando questo sistema. Il feedback è stato estremamente positivo, confermando l'alta qualità della traduzione automatica neurale e che funziona bene per il dominio del patrimonio culturale digitale.
Le traduzioni convalidate saranno utilizzate per migliorare ulteriormente i motori di traduzione automatica nel progetto Europeana Translate, al quale partecipa anche Pangeanic. L'obiettivo di questo progetto è aiutare Europeana a progredire nell'attuazione della sua strategia multilingue, fornendo traduzioni di metadati che consentiranno una migliore ricerca e visualizzazione delle sue collezioni nelle loro lingue native e nelle lingue degli utenti.
Arricchimento per set di dati
SAGE, uno strumento basato sul web per la produzione, l'arricchimento, la pubblicazione, l'accesso e la gestione dei set di dati FTR, è stato sviluppato dall'Università tecnica nazionale di Atene (NTUA) per Europeana XX. RDF (resource description framework) è un linguaggio utilizzato per rappresentare il contenuto di un set di dati. I dati RDF possono essere importati o generati direttamente da diverse fonti e formati di dati, organizzati in set di dati e arricchiti utilizzando annotatori. Questi arricchimenti possono quindi essere convalidati manualmente. Tutti i set di dati, comprese eventuali annotazioni, possono essere pubblicati negli archivi RDF, indicizzati e accessibili tramite chiamate API.
Grazie a SAGE, parti selezionate di set di dati pubblicati possono ora essere annotate e arricchite attraverso servizi API esterni, come strumenti che collegano i dati a Wikidata pertinenti, DBPedia, Geonames e altre risorse, o strumenti che rilevano occorrenze di termini di vocabolario nei dati. Una volta che gli arricchimenti sono fatti in SAGE, vengono poi convalidati manualmente attraverso un sistema che consente convalide di massa utilizzando il raggruppamento del testo e l'ordinamento della frequenza del testo, l'assegnazione di attività di convalida a più utenti e un attento monitoraggio del processo di convalida complessivo.
Lo strumento SAGE è stato utilizzato anche nel progetto Pagode per arricchire automaticamente più di 20.000 record. Sarà inoltre utilizzato nel progetto CRAFTED per analizzare i campi di metadati e il testo estratto dagli strumenti di analisi dei contenuti dell'intelligenza artificiale al fine di identificare e rimuovere l'incertezza dalle entità nominate. L'obiettivo finale è quello di arricchire più di 100.000 record e consentire la convalida e la valutazione degli utenti di entità estratte automaticamente.
Scopri di più
È possibile esplorare tutti gli strumenti sviluppati nell'ambito del progetto Europeana XX (e di altri progetti relativi ai servizi generici) nella pagina Servizi e strumenti di Europeana.
