Ankündigung der EuropeanaTech Challenge für Europeana-Datensätze zu künstlicher Intelligenz und maschinellem Lernen

Veröffentlicht 8. Januar 2021 von

Gregory Markus (Netherlands Institute for Sound & Vision)

Über den Anruf

Methoden aus dem Bereich der künstlichen Intelligenz und des maschinellen Lernens (KI/ML) haben dazu beigetragen, technologische Grenzen in verschiedenen Bereichen zu verschieben, auch im Bereich des Kulturerbes (siehe Beispiele im Zwischenbericht der EuropeanaTech AI in Bezug auf die GLAMs Task Force oder die AI4LAM-Initiative).

Viele KI/ML-Methoden, die für Anwendungen in GLAMs von Interesse sind, werden überwacht; Zum Beispiel trainieren sie einen Prädiktor (wie ein neuronales Netzwerk) unter Verwendung von Ground Truth (ideale und erwartete Ergebnisse) oder beschrifteten Daten, aus denen die Methode ein Modell lernen und ableiten kann. Damit das Modell gut verallgemeinern und genaue Vorhersagen für eine breite Palette von Eingaben durchführen kann, müssen seine Trainingsdaten von ausreichendem Volumen und ausreichender Qualität sein und für den Bereich repräsentativ sein, aus dem es beprobt wird. Andernfalls besteht die Gefahr einer Überanpassung (das Modell wird nur gute Vorhersagen für Eingaben treffen, die den Trainingsdaten sehr ähnlich sind) oder der Einführung von Verzerrungen, die nicht nur die allgemeine Anwendbarkeit und Leistung des Modells verringern, sondern auch ethisch problematische oder anderweitig unbeabsichtigte Nebenwirkungen nach sich ziehen können.

Der GLAM-Sektor ist gut positioniert für die Einführung von KI/ML in dem Sinne, dass kuratierte und vielfältige Daten von ausreichender Menge, Qualität und Vielfalt in Form digitaler Sammlungen von GLAMs (wie die aggregierten und von Europeana bereitgestellten) jetzt unter offenen Lizenzen weithin verfügbar sind. Was derzeit fehlt, ist die breitere Verfügbarkeit von Datensätzen aus dem GLAM-Sektor, die für die direkte Nutzung im Rahmen der KI/ML-Forschung und -Entwicklung geeignet sind. Die Verfügbarkeit solcher offenen Datensätze könnte nicht nur dazu beitragen, eine stärkere Einbeziehung von Daten des digitalen Kulturerbes in KI/ML zu fördern, sondern auch die Übertragung der jüngsten Fortschritte in der KI/ML auf den Bereich der digitalen Kuration und Analyse von Inhalten des Kulturerbes unterstützen. Andererseits gehen weitere Fortschritte in AI/ML oft mit der Veröffentlichung neuer hochwertiger Datensätze einher.

EuropeanaTech bittet daher um Vorschläge für die Zusammenstellung geeigneter AI/ML-Datensätze, die sich aus den umfangreichen Sammlungen auf der Europeana-Website ergeben. Wir suchen Vorschläge für die Erstellung großer, gut dokumentierter Datensätze, die für die direkte Nutzung für KI/ML-Zwecke (z. B. Schulung eines Modells) konzipiert sind und auf einschlägigen Online-Plattformen unter offenen Lizenzen öffentlich zugänglich gemacht werden können.

Wir vergeben den beiden Gewinnern ein Stipendium in Höhe von 2.500 Euro zur Unterstützung der Produktion, Dokumentation und Veröffentlichung der Datensätze. Die Preisträger werden eingeladen, ihre Beiträge auf einer künftigen Europeana-Veranstaltung (online) zu präsentieren und einen Text für die Veröffentlichung ihrer Ergebnisse zur Verfügung zu stellen.

Wie man sich bewirbt

Um sich zu bewerben, lesen Sie bitte die unten stehenden Einreichungsrichtlinien und reichen Sie bis zum 15. Februar 2021, 23:59 Uhr MEZ, einen Vorschlag ein. Die Vorschläge sollten in weniger als 1.500 Wörtern beschreiben:

Der beabsichtigte Inhalt des Datensatzes (in Bezug auf Volumen, Arten von Assets, Anmerkungen usw.)
Das Verfahren, das Sie für die Erstellung des Datensatzes befolgen wollten
Wie wichtig ist es für AI/ML?

Die Vorschläge sollten auch einen Vorschlag für einen möglichen Anwendungsfall enthalten, der durch ein vortrainiertes Modell mit einer Demonstration oder Bewertung seiner Ergebnisse unterstützt wird. Im Falle der Annahme muss es möglich sein, den Datensatz sowie alle erforderlichen Unterlagen und technischen Ressourcen vor dem 30. Juni 2021 zu erstellen und freizugeben.

Die Sammlungen des europäischen Kulturerbes unterliegen in der Regel Vorurteilen und bringen ethische Fragen mit sich. Dies kann sich zwar negativ auf KI- und maschinelle Lernlösungen auswirken, aber KI und maschinelles Lernen könnten auch verwendet werden, um diese Probleme aufzudecken. Diese Probleme werden im Rahmen dieser Aufforderung möglicherweise nicht überwunden, aber wir empfehlen Ihnen, sie zu dokumentieren und zu diskutieren.

Reichen Sie Ihren Vorschlag ein

Die Datensätze MÜSSEN:

aus den Daten der verschiedenen über Europeana bereitgestellten Sammlungen gewonnen werden;
Fügen Sie nur Metadaten ein, die entweder von Ihnen erstellt wurden oder von Europeana stammen. Die daraus resultierenden Metadaten müssen unter Creative Commons Zero lizenziert sein.
in einem maschinenlesbaren Format einschließlich Dokumentation und Herkunft zusammengestellt werden;
Es wurde noch nicht veröffentlicht. Bei früherer Veröffentlichung müssen die Schritte detailliert beschrieben werden, wie der neue Datensatz verbessert und verwendet werden soll.
Fügen Sie eine Beschreibung eines oder mehrerer beabsichtigter Anwendungsfälle des Datensatzes hinzu.

Die Datensätze SOLLTEN:

Nur Medien-Assets mit einer Lizenz enthalten, die mit Europeana Publishing Framework Content Tier 3 kompatibel ist;
Klärung der Beziehung zu und des Beitrags zu bewährten Verfahren und dem Stand der Technik im Bereich des digitalen Kulturerbes;
Fügen Sie ein vortrainiertes Modell hinzu, das sich aus der Anwendung (unter Verwendung einer ML/AI-Basismethode für (eines) der beabsichtigten Anwendungsfälle) und einer Demo der Verwendung dieses Modells oder der Bewertung seiner Ergebnisse ergibt;
Dokumentieren oder diskutieren Sie mögliche ethische Fragen und Vorurteile.

Die Datensätze KÖNNEN:

zusätzliche kuratorische Anreicherungen und Verbesserungen wie Anmerkungen zu Daten, Kennzeichnungen oder Querverweise mit anderen (digitalen) Ressourcen aufzunehmen, sofern diese vor der Veröffentlichung von Datensätzen abgeschlossen werden und geeignete Qualitätskontrollmaßnahmen angewendet werden;
Sie sind Teil einer Publikation in einem Peer-Review-Journal oder einer Konferenz.

Grundlegende Dokumentation für technische Lösungen sollte zur Verfügung gestellt werden und jede produzierte Software muss unter einer Open-Source-Lizenz veröffentlicht werden.

Wichtige Termine

Die Ausschreibung wird eröffnet: 8. Januar 2021
Einreichungsfrist: Februar 2021, 23.59 Uhr MEZ
Mitteilung der Annahmen: 1. März 2021
Veröffentlichung des Datensatzes: 30. Juni 2021

Zuschlagskriterien

Die Einreichungen werden von der EuropeanaTech AI in der GLAMs Task Force und der EuropeanaTech Community Steering Group auf folgender Grundlage überprüft:

Relevanz des Use Case für die GLAM-Community: 25%
Relevanz des Datensatzes für KI/ML in Bezug auf den Anwendungsfall: 25%
Klare Definition des Anwendungsfalls/der Demo in Bezug auf Europeana: 30%
Klarheit in der Beschreibung des Datensatzes: 20%

Förderfähigkeit

Formal werden die Mittel nicht Einzelpersonen, sondern Institutionen zugewiesen, bei denen es sich um kulturelles Erbe oder Forschungseinrichtungen handeln kann, zu denen Universitäten gehören. Ein Vertreter jeder Empfängereinrichtung wird gebeten, einen Untervertrag mit der Europeana Foundation zu unterzeichnen.
Bewerber müssen ihren Sitz in einem EU-Mitgliedstaat haben.
Bewerber müssen Mitglied der EuropeanaTech-Community und der Europeana Network Association sein. Wenn Sie noch kein Mitglied sind, können Sie herausfinden, wie Sie beitreten können.
Der Zuschlag ist der Bruttobetrag und enthält daher die Mehrwertsteuer.
Europeana DSI-4 Projektpartner sind nicht förderfähig. Die vollständige Liste finden Sie hier.

Empfohlene Lektüre

Diese Seite wurde am 19.1.2021 bearbeitet, um der Verlängerung der Frist vom 31. Januar 2021 bis zum 15. Februar 2021 Rechnung zu tragen. Sie wurde am 16.4.2021 bearbeitet, um der verlängerten Frist für die Übermittlung der Datensätze durch die Gewinner bis Juni 2021 Rechnung zu tragen.