EuropeanaTech Challenge für Europeana AI/ML-Datensätze: Bekanntgabe der Gewinner!

Veröffentlicht 22. März 2021 von

Clemens Neudecker (Berlin State Library)

Methoden aus dem Bereich der künstlichen Intelligenz (KI) und des maschinellen Lernens (ML) haben dazu beigetragen, technologische Grenzen in verschiedenen Bereichen zu verschieben, auch im Bereich des Kulturerbes (der Zwischenbericht der EuropeanaTech AI in Bezug auf die GLAMs Task Force und die AI4LAM-Initiative liefern einige Beispiele). Um Innovationen in diesem Bereich zu fördern, hat EuropeanaTech vor einigen Wochen seine erste Challenge for Europeana AI/ML Datasets angekündigt. Mit dieser neuen Aktivität wollten wir die Erstellung von Datensätzen für den GLAM-Sektor anregen, die für KI/ML verwendet werden können und sich auf die reichen Ressourcen des kulturellen Erbes stützen, die in Europeana verfügbar sind. Wir hoffen, dass die Verfügbarkeit solcher Datensätze dazu beitragen könnte, eine stärkere Einbeziehung von Daten des digitalen Kulturerbes in KI/ML zu fördern und die Übertragung der jüngsten Fortschritte in KI/ML auf den Bereich der digitalen Kuration und Analyse von Inhalten des Kulturerbes zu unterstützen.

Der Hof erhielt insgesamt fünf Vorschläge, die von Mitgliedern der EuropeanaTech-Lenkungsgruppe und der KI im Zusammenhang mit der GLAM-Taskforce sorgfältig geprüft wurden. Sie bewerteten die Vorschläge auf der Grundlage ihrer Relevanz für den GLAM-Sektor (25 %), der Relevanz für KI/ML (25 %), des Verhältnisses zu Europeana (30 %) und der Klarheit der Beschreibung und des Arbeitsplans (20 %).

Bekanntgabe der Gewinner

Benannte Entitäten in archäologischen Texten

Dieser Vorschlag eines Teams an der Universität Neapel "L'Orientale" zielt darauf ab, einen Datensatz für Named Entity Recognition (NER) und Term Extraction für archäologische Begriffe in Italienisch und Englisch in der Europeana Archeology Collection zu erstellen. NER ist der Prozess der Identifizierung von Eigennamen wie Personennamen oder Orten in unstrukturiertem Text. Term Extraction ist ähnlich, konzentriert sich aber auf die Suche nach Fachbegriffen, in diesem Fall aus dem Bereich der Archäologie. Vokabeln wie Getty und CIDOC CRM werden berücksichtigt. Der endgültige Datensatz könnte bei der Entwicklung und Bewertung von KI/ML-basierten Technologien für NER im Bereich Archäologie verwendet werden.

Die Gutachter würdigten insbesondere die klare Struktur und Ausgereiftheit des Vorschlags, für den bereits ein Musterdatensatz unter Verwendung der APIs von Europeana erstellt wurde, um den vorgeschlagenen Ansatz zu testen. Der zweisprachige Aspekt und die Knappheit ähnlicher offener Ressourcen für den archäologischen Bereich wurden ebenfalls als besonders wertvoll angesehen.

Zac Grace

Dieser Vorschlag eines Studenten der Ecole Nationale d'Ingénieurs de Tarbes zielt darauf ab, Pixelmasken für die semantische Segmentierung durch manuelle Anmerkung von Bilddaten in der Europeana Fashion-Sammlung zu erstellen. Das bedeutet, dass zum Beispiel bei der Analyse eines Bildes die relevanten Modeelemente (Shirt, Hose, Schuhe) im Bild dann mit ihren Pixelumrissen markiert werden. Solche Daten können für die Schulung eines automatisierten Segmentierungssystems verwendet werden.

Den Gutachtern gefiel der klare Umfang und das Verständnis der für die Umsetzung des Vorschlags erforderlichen Arbeit. Sie dachten auch, dass es viel Potenzial für die Anwendung in verschiedenen Sammlungen hatte.

Der umstrittene Kontext Corpus

Dieser gemeinsame Vorschlag des KNAW Humanities Clusters und des Centrum Wiskunde & Informatica in den Niederlanden will ein kommentiertes Korpus strittiger Begriffe im Kontext (ConConConCor) aus niederländischen Zeitungen in Europeana etablieren. Diese können dann verwendet werden, um (halb-)automatische Methoden zur Erkennung solcher Begriffe in Sammlungen des kulturellen Erbes einzufangen und zu bewerten. Streitige Begriffe sind Wörter oder Phrasen, die auf eine (implizite oder explizite) Voreingenommenheit gegenüber oder gegen eine Gruppe, ein Ereignis oder auf andere Weise hindeuten.

Die Gutachter schätzten, wie mit diesem Vorschlag ein zentrales Ziel in Bezug auf die Herausforderung, die Aufdeckung ethischer Fragen und Verzerrungen, die den Sammlungen des digitalisierten Kulturerbes innewohnen, angegangen werden soll.

Den Gewinnern werden drei Stipendien in Höhe von jeweils 2.500 EUR zur Verfügung gestellt, um ihre Vorschläge umzusetzen und die entsprechenden Datensätze bis Ende Juni 2021 zu liefern.

Erfahren Sie mehr

Wir möchten uns bei allen bedanken, die für ihre harte Arbeit und ihre ausgezeichneten Ideen einen Vorschlag für diese Herausforderung eingereicht haben. Wir freuen uns auf die Umsetzung der Gewinnerprojekte und hoffen, dass in Zukunft eine weitere Runde für diejenigen eröffnet wird, die diesmal nicht erfolgreich waren!

Wenn Sie mehr über solche Möglichkeiten erfahren und sich mit multidisziplinären technischen Fachleuten aus der ganzen Welt vernetzen und zusammenarbeiten möchten, treten Sie EuropeanaTech über die Europeana Network Association bei und folgen Sie der Community auf Twitter.

Dieser Beitrag wurde am 16.4.21 bearbeitet, um die verlängerte Frist für die Übermittlung der Datensätze durch die Gewinner widerzuspiegeln.

EuropeanaTech Challenge für Europeana AI/ML-Datensätze: Bekanntgabe der Gewinner!

Teilen

Bekanntgabe der Gewinner

Erfahren Sie mehr

Entdecken Sie verwandte Inhalte