Incontri ravvicinati con l'IA: un'intervista sull'arricchimento semantico automatico

Pubblicato 4 luglio 2024 di

Eirini Kaldeli (National Technical University of Athens)

Marco Rendina (European Fashion Heritage Association)

Alexandros Chortaras (National Technical University of Athens)

Marco Rendina: Partiamo dalle basi. Cos'è l'arricchimento semantico?

Eirini Kaldeli: L'arricchimento semantico è il processo di aggiunta di nuova semantica ai dati non strutturati, come il testo libero, in modo che le macchine possano dargli un senso e costruire connessioni ad esso. Nel caso di metadati testuali che descrivono elementi del patrimonio culturale, questi possono essere analizzati e aumentati con termini controllati da set di dati o vocabolari Linked Open, come Wikidata o il Getty Art & amp; Architecture Thesaurus (AAT). Questi termini sono comunemente indicati come annotazioni e possono rappresentare concetti e attributi (come "Costume" o "Rinascimento"), persone, luoghi, organizzazioni o periodi cronologici. Ad esempio, le stringhe "Leonardo da Vinci" e "da Vinci, Leonardo" possono essere entrambe collegate alla voce Wikidata che rappresenta la polima del Rinascimento italiano.

MR: Perché è importante arricchire i metadati con termini di dataset o vocabolari Linked Open?

EK: L'arricchimento semantico aggiunge significato e contesto alle collezioni digitali e le rende più facilmente individuabili. Data la sua importanza, è stata una delle principali preoccupazioni e priorità degli sforzi dell'iniziativa Europeana, nonché dei singoli aggregatori e fornitori di dati.

In primo luogo, i dati collegati rendono i metadati testuali inequivocabili. Ad esempio, la stringa "Leonardo da Vinci" può anche riferirsi, a seconda del contesto, all'aeroporto italiano o a una corazzata con lo stesso nome. Ognuno di questi concetti è rappresentato tramite un URI dedicato (Unique Reference Identifier) da Wikidata, e, quindi, collegando il testo con l'URI corretto, diventa chiaro a cosa si riferisce il testo.

In secondo luogo, i dati collegati ci consentono di recuperare informazioni aggiuntive su una determinata entità, creare connessioni tra risorse diverse e contestualizzarle. Ad esempio, ci consente di collegare gli articoli contrassegnati con il termine "anello" con il concetto più ampio di "gioielleria" e di collegarli con articoli arricchiti con il termine "braccialetto", che è anche un'istanza di "gioielleria".

Infine, i dati collegati di solito vengono forniti con traduzioni, migliorando le capacità di ricerca multilingue. Ciò consente a coloro che utilizzano archivi online di sfogliare e cercare le raccolte presso il cosiddetto "livello semantico": chi cerca "κόσμημα" (parola greca per "gioielli") sarà in grado di scoprire oggetti descritti come anelli e bracciali.

MR: Alexandros, l'arricchimento dei metadati richiede sforzi e risorse che spesso mancano alle istituzioni del patrimonio culturale. In che modo le tecnologie digitali possono contribuire ad affrontare questa sfida?

Alexandros Chortaras: Gli istituti di tutela del patrimonio culturale possono utilizzare tecnologie all'avanguardia per automatizzare il processo manuale, dispendioso in termini di tempo e spesso banale di arricchimento dei metadati. Gli strumenti di elaborazione del linguaggio naturale possono essere utilizzati per analizzare i metadati testuali e rilevare e classificare entità nominate, come le persone o i nomi di località, menzionati nel testo non strutturato. Gli approcci di apprendimento automatico sono ampiamente utilizzati per il compito di disambiguazione dell'entità nominata, che è responsabile di decidere se, ad esempio, il riferimento a "Leonardo da Vinci" nel testo si riferisce alla polimazia italiana o alla corazzata. A seconda delle caratteristiche del testo, come la sua lunghezza e lingua, il vocabolario a cui desideriamo collegarlo e il tipo di entità che desideriamo rilevare, è necessario combinare gli strumenti più appropriati per il compito specifico. Ad esempio, dalla nostra esperienza con progetti precedenti come CRAFTED, per determinate attività con un contesto ristretto ben definito, anche un semplice approccio di lemmatizzazione e corrispondenza delle stringhe può essere più appropriato di complessi algoritmi basati su ML.

MR: Ma posso fidarmi completamente dei risultati di un algoritmo automatico? E se commette errori?

AC: Infatti, gli algoritmi automatici che analizzano il testo libero per il riconoscimento e la disambiguazione delle entità nominate commettono errori. L'accuratezza dipende dal compito a portata di mano e dall'algoritmo applicato. Ad esempio, brevi descrizioni testuali che sono comuni nei metadati mancano di contesto e quindi gli algoritmi ML addestrati sugli articoli di Wikipedia possono causare corrispondenze errate.

Inoltre, anche se i collegamenti rilevati automaticamente sono corretti, possono essere considerati indesiderabili in un determinato contesto. Ad esempio, collegare i record di metadati con termini che rappresentano i colori può essere importante per una collezione di moda, ma può essere indesiderabile per descrivere un manoscritto che menziona un certo colore. Pertanto, l'ispezione umana e la convalida delle annotazioni automatiche sono indispensabili. Tuttavia, poiché ci sono spesso migliaia di annotazioni automatiche, la convalida manuale può essere un processo ad alta intensità di risorse. A livello pratico, gli esseri umani dovrebbero rivedere un campione selezionato delle annotazioni e, a seconda dei risultati e dell'obiettivo, decidere criteri di filtraggio appropriati.

MR: Un'ultima domanda per Eirini. Ci sono molti algoritmi e librerie là fuori, ma sembra che siano necessarie notevoli conoscenze tecniche per configurarli. In che modo AI4Culture aiuta le istituzioni del patrimonio culturale a sfruttare queste tecnologie?

ΕΚ: Nell'ambito del progetto AI4Culture, stiamo lavorando a una piattaforma, denominata SAGE, sviluppata dall'Università tecnica nazionale di Atene. SAGE facilita l'arricchimento semantico dei metadati del patrimonio culturale offrendo una suite di annotatori consolidati (modelli di arricchimento) configurati per soddisfare le esigenze del settore. La piattaforma supporta l'intero flusso di lavoro di arricchimento, dall'importazione e produzione automatica di annotazioni semantiche alla convalida umana e alla pubblicazione dei dati nel formato previsto da Europeana. Lo strumento è stato utilizzato con successo per arricchire i metadati del patrimonio culturale in diverse applicazioni (anche attraverso i progetti CRAFTED ed Europeana XX). Nel contesto di AI4Culture, è stato esteso per nascondere la complessità tecnica degli algoritmi automatici di arricchimento semantico e per sostenere l'interoperabilità senza soluzione di continuità con lo spazio comune europeo dei dati per il patrimonio culturale. A tal fine, la piattaforma supporta formati pertinenti ai metadati del patrimonio culturale, come l'EDM (Europeana Data Model) e facilita l'importazione diretta di metadati da fonti correlate al patrimonio culturale come Europeana.eu o lo strumento MINT utilizzato da diversi aggregatori di Europeana.

Per ora, le persone interessate possono provare SAGE qui. Il codice sorgente è disponibile su GitHub (frontend, backend). Puoi imparare come usare SAGE seguendo una serie di video tutorial e leggendo le istruzioni Wiki

Scopri di più

A settembre 2024, il progetto AI4Culture lancerà una piattaforma in cui gli strumenti aperti, come lo strumento SAGE per l'arricchimento semantico sopra presentato, saranno resi disponibili online, insieme alla relativa documentazione e ai materiali di formazione. Tieni d'occhio la pagina del progetto su Europeana Pro per maggiori dettagli e resta sintonizzato sul progetto LinkedIn e sull'account X!