Der EU-Datathon ist ein jährlicher Wettbewerb, der „den Open-Data-Enthusiasten und Anwendungsentwicklern aus der ganzen Welt die Möglichkeit bietet, das Potenzial offener Daten zu demonstrieren, ihre innovativen Ideen international bekannt zu machen und sich um ihren Anteil am Gesamtpreisfonds von 200 000 EUR und den Public Choice Award zu bewerben.“ Sie sind eingeladen, data.europa.eu zu nutzen, das offizielle Portal für europäische Daten, das vom Amt für Veröffentlichungen der Europäischen Union verwaltet wird.
Mit dem Anfang des Jahres auf data.europa.eu veröffentlichten Europeana.eu-Datensatz könnte auch die Aggregation von Metadaten der rund 4.000 Einrichtungen des Kulturerbes, die Europeana Inhalte zur Verfügung stellen, von Vorschlägen und Apps für den Wettbewerb für ihre Beiträge profitieren. Als offizieller Partner des Wettbewerbs lud Europeana Forscher, Universitätsprofessoren und Studierende der Sozial- und Geisteswissenschaften sowie der Informatik und Informationswissenschaft ein, am EU-Datathon teilzunehmen.
Nach zwei Vorauswahlrunden mit 156 Einreichungen aus 38 Ländern war ein Team, das eine App auf Basis des Europeana.eu-Datensatzes entwickelt, einer der 12 Finalisten und erhielt unter Challenge Nummer 4 einen Preis in Höhe von 7.000 Euro. „Ein Europa für das digitale Zeitalter“ bei der Preisverleihung am 20. Oktober 2022 in Brüssel. Das Team besteht aus Professorin Johanna Monti; Forscherin, Maria Pia di Buono; und zwei Doktoranden, Gennaro Nolano und Giulia Speranza. Johanna Monti erzählt uns von der Erfahrung.
Können Sie uns etwas über die von Ihnen entwickelte App und den Prozess ihrer Erstellung erzählen?
Wir haben Maggie entwickelt, einen Echtzeit-Chatbot, der als virtuelle Assistentin fungiert, um Menschen den Zugang zu und die Entdeckung europäischer kultureller Inhalte zu erleichtern. Die Menschen können mit Maggie über natürliche Sprachfragen interagieren und nach dem europäischen Kulturerbe fragen.
Die Hauptidee hinter Maggie ist die Nutzung von Methoden der künstlichen Intelligenz (KI) und der Verarbeitung natürlicher Sprache (NLP), um eine benutzerzentrierte App zu entwickeln, die den Zugang und die Entdeckung mehrsprachiger kultureller Inhalte erleichtert. Die Zielgruppe von Maggie ist sehr vielfältig; Die App passt die Inhalte an das Wissen und die Interessen der Nutzer an, um unterschiedlichen Informationsbedürfnissen gerecht zu werden, von Studenten bis hin zu Experten.
Maggie ist das Ergebnis von mehr als einem Jahrzehnt Forschungsaktivitäten, die 2012 mit unseren allerersten Experimenten zur sprachübergreifenden Informationssuche zum Kulturerbe begannen. Danach markierten mehrere Meilensteine unseren Weg nach Maggie, darunter die Gründung der UNIOR NLP-Forschungsgruppe der Universität Neapel L'Orientale im Jahr 2016 und mehrere Projekte von 2019 bis 2021, darunter das SMACH-Projekt (Semantic Multilingual Access to Cultural Heritage), das ArchaeoTerm-Projekt, das eine Ressource archäologischer Begriffe im Rahmen des YourTerm CULT-Projekts bietet, und das NEAT-Projekt (Named Entities in Archaeological Texts).
Warum haben Sie sich für den Europeana.eu-Datensatz entschieden?
Unsere Forschungsgruppe ist seit jeher bestrebt, kulturelle Inhalte für jedermann leicht zugänglich zu machen, indem sie Systeme und Anwendungen für das kulturelle Erbe entwickelt. In diesem Sinne haben wir bereits europäische offene Daten (in Form von Daten von der Europeana-Website) in mehreren Arbeiten genutzt, die alle darauf abzielen, den aktuellen Stand der Verarbeitung natürlicher Sprache für einen besseren Zugang zu Inhalten des Kulturerbes zu verbessern.
In all diesen Fällen wurde der Kern der von uns verwendeten Daten durch offene Daten dargestellt, die aus der Europeana Search API herausgelöst wurden, was den Zugriff auf aggregierte Daten und deren Weiterverwendung erleichtert und gleichzeitig die hohe Qualität der Daten und ihre Mehrsprachigkeit gewährleistet. Während in früheren Experimenten viele der im Europeana-Datenmodell beschriebenen Informationen (wie Daten über Lokalisierung, Autoren und Themen) nicht verwendet wurden, um Maggie zu entwickeln, nutzen wir die reichhaltige Informationsquelle von Europeana voll aus, da wir eine spezifischere Aufgabe der Verarbeitung natürlicher Sprache entwickeln wollten.

Der EU-Datathon fördert die Nutzung offener Datensätze. Warum ist die Offenheit von Daten für Ihre Forschung und App wichtig?
Offene Daten sorgen für Reproduzierbarkeit und Transparenz in der Forschung. Die Verfügbarkeit solcher Daten stellt eine Möglichkeit dar, den Wissensaustausch und die Zusammenarbeit in wissenschaftlichen Gemeinschaften zu fördern. Die meisten unserer Forschungsanstrengungen nutzen offene Daten aus verschiedenen Quellen. Dies ist der Fall bei unserer App Maggie. Ohne offene Daten von Europeana und data.europa.eu hätten wir Maggie nicht entwickeln können. Wir extrahieren Informationen über jedes Kunstwerk, das über Europeana zur Verfügung gestellt wird, wie Autor, Erstellungsdatum und so weiter, und wir aggregieren die Informationen über seine Geolokalisierung aus dem GeoDataset von data.europa.eu.
Warum haben Sie sich für den EU Datathon Wettbewerb entschieden?
Es war eine große Herausforderung für uns, da wir versuchten, alle unsere bisherigen Bemühungen in einer einzigen Anwendung zusammenzufassen, die den Menschen im heutigen digitalen Zeitalter den einfachen Zugang zu europäischen kulturellen Inhalten erleichtern könnte. Es stellte jedoch auch eine Gelegenheit dar, aus der reinen akademischen Forschung herauszukommen und sich in einem Konzeptnachweis, der über die Prototypenphase hinausgeht, für etwas einzusetzen, das in einer realen Situation tatsächlich verwendet werden könnte. Dabei werden modernste Methoden, Ressourcen und Instrumente im Bereich der Verarbeitung natürlicher Sprache und der künstlichen Intelligenz genutzt.
Welchen Rat würden Sie anderen geben, die an einem solchen Wettbewerb teilnehmen?
Die Teilnahme an Wettbewerben, die die Nutzung offener Daten fördern, ist eine Möglichkeit, die Umsetzung, Verbreitung und Annahme solcher Daten zu unterstützen. Es trägt auch zur Verbesserung und Pflege von Datensätzen bei, die aufgrund der Menge an Daten und Quellen schwer zu verwalten, zu bereinigen und zu testen sind. Die Ergebnisse dieser Art von Wettbewerben haben echte Auswirkungen auf die Gesellschaft, die in direktem Zusammenhang mit der Möglichkeit stehen, die Lebensqualität der Bürger zu verbessern, indem Informationen und Wissen über die Gesellschaft, in der sie leben, zugänglich und leicht zugänglich gemacht werden. Unser Rat an die Forscher ist es, aus ihrer Komfortzone herauszukommen und die Strenge der Forschung mit der Kreativität des Designprozesses zu verbinden, wobei wir die positiven Auswirkungen auf die Gesellschaft als letztes Ziel betrachten.
