Team dat Europeana-gegevens gebruikt, wint prijs op de EU Datathon 2022

Gepubliceerd 26 oktober 2022 door

Johanna Monti (University of Naples L'Orientale)

Georgia Evans (Europeana Foundation)

De EU Datathon is een jaarlijkse wedstrijd die opendataliefhebbers en applicatieontwikkelaars uit de hele wereld de kans biedt om het potentieel van open data aan te tonen, internationale zichtbaarheid te krijgen voor hun innovatieve ideeën en te concurreren voor hun aandeel in het totale prijzenfonds van 200 000 EUR en de Public Choice Award. Zij worden uitgenodigd gebruik te maken van data.europa.eu, het officiële portaal voor Europese gegevens, dat wordt beheerd door het Bureau voor publicaties van de Europese Unie.

Met de eerder dit jaar op data.europa.eu gepubliceerde dataset Europeana.eu, waarin metadata worden samengevoegd van de ongeveer 4 000 instellingen voor cultureel erfgoed die inhoud aan Europeana verstrekken, kunnen voorstellen en apps die voor de wedstrijd zijn ontworpen, er ook van profiteren voor hun inzendingen. Als officiële partner van de wedstrijd nodigde Europeana onderzoekers, hoogleraren en studenten uit de sociale en geesteswetenschappen en computer- en informatiewetenschappen uit om deel te nemen aan de EU Datathon.

Na twee rondes van voorselecties van 156 inzendingen uit 38 landen was een team dat een app ontwikkelt op basis van de Europeana.eu dataset een van de 12 finalisten en kreeg een prijs van 7.000 euro onder Challenge Number 4: “Een Europa dat klaar is voor het digitale tijdperk” tijdens de prijsuitreiking in Brussel op 20 oktober 2022. Het team bestaat uit professor Johanna Monti; onderzoeker, Maria Pia di Buono; en twee promovendi, Gennaro Nolano en Giulia Speranza. Johanna Monti vertelt ons over de ervaring.

Kun je ons iets vertellen over de app die je hebt ontwikkeld en het proces van het maken ervan?

We ontwikkelden Maggie, een real-time chatbot die fungeert als een virtuele assistent om mensen te helpen toegang te krijgen tot Europese culturele inhoud en deze te ontdekken. Mensen kunnen met Maggie communiceren via natuurlijke taalvragen en vragen stellen over het Europees cultureel erfgoed.

Het belangrijkste idee achter Maggie is het benutten van methoden voor kunstmatige intelligentie (AI) en natuurlijke taalverwerking (NLP) om een gebruikersgerichte app te ontwikkelen die de toegang tot en ontdekking van meertalige culturele inhoud vergemakkelijkt. Het beoogde publiek van Maggie is zeer divers; de app stemt inhoud af op de kennis en interesses van gebruikers om tegemoet te komen aan verschillende informatiebehoeften, van studenten tot deskundigen.

Maggie is het resultaat van meer dan tien jaar onderzoeksactiviteiten die in 2012 zijn begonnen met onze allereerste experimenten met het opvragen van taaloverschrijdende informatie over cultureel erfgoed. Daarna hebben verschillende mijlpalen onze weg naar Maggie gemarkeerd, waaronder de oprichting van de UNIOR NLP-onderzoeksgroep van de Universiteit van Napels L'Orientale in 2016, en verschillende projecten van 2019 tot 2021, waaronder het SMACH-project (Semantic Multilingual Access to Cultural Heritage), het ArchaeoTerm-project dat een bron van archeologische termen biedt die beschikbaar is in het kader van het YourTerm CULT-project, en het NEAT-project (Named Entities in Archaeological Texts).

Waarom hebt u ervoor gekozen om de dataset Europeana.eu te gebruiken?

Onze onderzoeksgroep heeft zich altijd ingezet om culturele inhoud gemakkelijk toegankelijk te maken voor iedereen, door systemen en toepassingen voor cultureel erfgoed te ontwikkelen. In die zin hebben we Europese open data (in de vorm van gegevens van de Europeana-website) al in verschillende werken benut, allemaal gericht op het verbeteren van de huidige state-of-the-art in Natural Language Processing-taken voor een betere toegang tot inhoud van cultureel erfgoed.

In al deze gevallen werd de kern van de door ons gebruikte gegevens gevormd door open gegevens die uit de Europeana Search API zijn verwijderd, waardoor geaggregeerde gegevens gemakkelijk toegankelijk en hergebruikt kunnen worden, terwijl ook de hoge kwaliteit van de gegevens en hun meertaligheid worden gewaarborgd. Hoewel in eerdere experimenten veel van de door het Europeana Data Model beschreven informatie (zoals gegevens over lokalisatie, auteurs en thema's) niet werd gebruikt om Maggie te ontwikkelen, benutten we ten volle de rijke bron van informatie die Europeana biedt, omdat we een meer specifieke taak voor natuurlijke taalverwerking wilden ontwikkelen.

De EU Datathon moedigt het gebruik van open datasets aan. Waarom is openheid van data belangrijk voor je onderzoek en app?

Open data zorgt voor reproduceerbaarheid en transparantie in onderzoek. De beschikbaarheid van dergelijke gegevens is een manier om kennisdeling en samenwerking in wetenschappelijke gemeenschappen aan te moedigen. De meeste van onze onderzoeksinspanningen maken gebruik van open data uit verschillende bronnen. Dit is het geval met onze app Maggie. Zonder open data van Europeana en data.europa.eu hadden we Maggie niet kunnen ontwikkelen. We extraheren informatie over elk kunstwerk dat via Europeana beschikbaar wordt gesteld, zoals de auteur, de creatiedatum enzovoort, en we aggregeren de informatie over de geolocatie ervan uit het GeoDataset van data.europa.eu.

Waarom heb je besloten om deel te nemen aan de EU Datathon-wedstrijd?

Het was een grote uitdaging voor ons, aangezien we al onze eerdere inspanningen probeerden te bundelen in één enkele applicatie die mensen in het huidige digitale tijdperk zou kunnen helpen gemakkelijk toegang te krijgen tot Europese culturele inhoud. Het bood echter ook een kans om uit puur academisch onderzoek te komen en zich in te zetten voor een proof of concept dat verder gaat dan de prototypefase, in de richting van iets dat daadwerkelijk zou kunnen worden gebruikt in een reële situatie; dit alles met gebruikmaking van de modernste methoden, middelen en instrumenten op het gebied van de verwerking van natuurlijke talen en kunstmatige intelligentie.

Welk advies zou je anderen geven om mee te doen aan een wedstrijd als deze?

Deelname aan vergelijkende onderzoeken die het gebruik van open gegevens bevorderen, is een manier om de uitvoering, verspreiding en goedkeuring van dergelijke gegevens te ondersteunen. Het draagt ook bij aan de verbetering en het onderhoud van datasets die, vanwege de hoeveelheid gegevens en bronnen, moeilijk te beheren, schoon te maken en te testen zijn. De resultaten van dit soort wedstrijden hebben een reële impact op de samenleving en houden rechtstreeks verband met de mogelijkheid om de levenskwaliteit van burgers te verbeteren door informatie en kennis over de samenleving waarin zij leven toegankelijk en gemakkelijk beschikbaar te maken. Ons advies aan onderzoekers is om uit hun comfortzone te komen en de strengheid van onderzoek te combineren met de creativiteit van het ontwerpproces, waarbij we denken aan de gunstige impact op de samenleving als einddoel.

Meer weten over Maggie