Enge Begegnungen mit KI: Interview zur automatischen semantischen Anreicherung

Veröffentlicht 4. Juli 2024 von

Eirini Kaldeli (National Technical University of Athens)

Marco Rendina (European Fashion Heritage Association)

Alexandros Chortaras (National Technical University of Athens)

Marco Rendina: Fangen wir bei den Grundlagen an. Was ist semantische Anreicherung?

Eirini Kaldeli: Semantische Anreicherung ist der Prozess des Hinzufügens neuer Semantik zu unstrukturierten Daten, wie Freitext, so dass Maschinen einen Sinn daraus machen und Verbindungen zu ihm aufbauen können. Bei textuellen Metadaten, die Gegenstände des kulturellen Erbes beschreiben, können diese analysiert und mit kontrollierten Begriffen aus Linked Open-Datensätzen oder Vokabularen wie Wikidata oder dem Getty Art & Architecture Thesaurus (AAT) ergänzt werden. Diese Begriffe werden gemeinhin als Anmerkungen bezeichnet und können Begriffe und Attribute (wie „Kostüm“ oder „Renaissance“), Personen, Orte, Organisationen oder chronologische Perioden darstellen. So können beispielsweise die Zeichenfolgen „Leonardo da Vinci“ und „da Vinci, Leonardo“ beide mit dem Wikidata-Element verknüpft werden, das den italienischen Renaissance-Polymath darstellt.

MR: Warum ist es wichtig, Metadaten mit Begriffen aus Linked Open-Datensätzen oder Vokabeln anzureichern?

EK: Semantische Bereicherung verleiht digitalen Sammlungen Bedeutung und Kontext und macht sie leichter auffindbar. Angesichts seiner Bedeutung war es ein Hauptanliegen und Schwerpunkt der Bemühungen der Europeana-Initiative sowie einzelner Aggregatoren und Datenanbieter.

Erstens machen verknüpfte Daten textuelle Metadaten eindeutig. So kann sich beispielsweise die Zeichenfolge „Leonardo da Vinci“ je nach Kontext auch auf den italienischen Flughafen oder ein Schlachtschiff gleichen Namens beziehen. Jedes dieser Konzepte wird über einen dedizierten URI (Unique Reference Identifier) von Wikidata dargestellt, und durch die Verknüpfung des Textes mit dem richtigen URI wird klar, worauf sich der Text bezieht.

Zweitens ermöglichen uns verknüpfte Daten, zusätzliche Informationen über eine bestimmte Entität abzurufen, Verbindungen zwischen verschiedenen Ressourcen aufzubauen und sie zu kontextualisieren. So können wir beispielsweise Gegenstände, die mit dem Begriff „Ring“ gekennzeichnet sind, mit dem umfassenderen Begriff „Schmuck“ verknüpfen und sie mit Gegenständen verknüpfen, die mit dem Begriff „Armband“ angereichert sind, was auch ein Beispiel für „Schmuck“ ist.

Schließlich werden verknüpfte Daten in der Regel mit Übersetzungen geliefert, wodurch die Funktionen für die mehrsprachige Suche verbessert werden. Dies ermöglicht es den Nutzern von Online-Repositories, Sammlungen auf der sogenannten „semantischen Ebene“ zu durchsuchen und zu durchsuchen: Wer nach „κόσμημα“ (das griechische Wort für „Schmuck“) sucht, kann Gegenstände entdecken, die als Ringe und Armbänder bezeichnet werden.

MR: Alexandros, die Anreicherung von Metadaten erfordert Aufwand und Ressourcen, die Einrichtungen des Kulturerbes oft fehlen. Wie können digitale Technologien zur Bewältigung dieser Herausforderung beitragen?

Alexandros Chortaras: Einrichtungen des Kulturerbes können modernste Technologien nutzen, um den manuellen, zeitaufwändigen und oft alltäglichen Prozess der Anreicherung von Metadaten zu automatisieren. Tools zur Verarbeitung natürlicher Sprache können verwendet werden, um textuelle Metadaten zu analysieren und benannte Entitäten wie Personen oder Ortsnamen, die in unstrukturiertem Text erwähnt werden, zu erkennen und zu klassifizieren. Ansätze des maschinellen Lernens werden weitgehend für die Aufgabe der benannten Entitätsdisambiguation verwendet, die dafür verantwortlich ist, zu entscheiden, ob sich beispielsweise der Verweis auf „Leonardo da Vinci“ im Text auf den italienischen Polymath oder auf das Schlachtschiff bezieht. Abhängig von den Textmerkmalen, wie Länge und Sprache, dem Vokabular, mit dem wir es verknüpfen möchten, und der Art der Entitäten, die wir erkennen möchten, muss man die Werkzeuge kombinieren, die für die spezifische Aufgabe am besten geeignet sind. Zum Beispiel kann aus unserer Erfahrung mit früheren Projekten wie CRAFTED für bestimmte Aufgaben mit einem klar definierten eingeschränkten Kontext sogar ein einfacher Lemmatisierungs- und String-Matching-Ansatz geeigneter sein als komplexe ML-basierte Algorithmen.

MR: Aber kann ich den Ergebnissen eines automatischen Algorithmus voll vertrauen? Was ist, wenn es Fehler macht?

AC: Tatsächlich machen automatische Algorithmen, die Freitext auf benannte Entitätserkennung und -disambiguation analysieren, Fehler. Die Genauigkeit hängt von der jeweiligen Aufgabe und dem angewandten Algorithmus ab. Zum Beispiel können kurze Textbeschreibungen, die in Metadaten üblich sind, keinen Kontext haben und daher ML-Algorithmen, die in Wikipedia-Artikeln trainiert wurden, zu falschen Übereinstimmungen führen.

Selbst wenn die automatisch erkannten Links korrekt sind, können sie in einem bestimmten Kontext als unerwünscht angesehen werden. Zum Beispiel kann die Verknüpfung von Metadatensätzen mit Begriffen, die Farben darstellen, für eine Modesammlung wichtig sein, aber es kann unerwünscht sein, ein Manuskript zu beschreiben, das zufällig eine bestimmte Farbe erwähnt. Daher sind eine menschliche Inspektion und Validierung von automatischen Anmerkungen unerlässlich. Da es jedoch oft Tausende von automatischen Anmerkungen gibt, kann die manuelle Validierung ein sehr ressourcenintensiver Prozess sein. Auf praktischer Ebene sollte der Mensch eine ausgewählte Stichprobe der Anmerkungen überprüfen und, abhängig von den Ergebnissen und dem Ziel, über geeignete Filterkriterien entscheiden.

MR: Eine letzte Frage an Eirini. Es gibt viele Algorithmen und Bibliotheken da draußen, aber es scheint, dass beträchtliches technisches Wissen erforderlich ist, um sie einzurichten. Wie hilft AI4Culture den Einrichtungen des Kulturerbes, diese Technologien zu nutzen?

ΕΚ: Im Rahmen des AI4Culture-Projekts arbeiten wir an einer Plattform namens SAGE, die von der Nationalen Technischen Universität Athen entwickelt wurde. SAGE erleichtert die semantische Anreicherung von Metadaten des kulturellen Erbes, indem es eine Reihe etablierter Annotatoren (Anreicherungsvorlagen) anbietet, die für die Bedürfnisse des Sektors konfiguriert sind. Die Plattform unterstützt den gesamten Anreicherungsworkflow, vom Datenimport und der automatischen Erstellung semantischer Anmerkungen bis hin zur menschlichen Validierung und Datenveröffentlichung in dem von Europeana erwarteten Format. Das Tool wurde erfolgreich zur Anreicherung von Metadaten zum Kulturerbe in mehreren Anwendungen (u. a. im Rahmen der Projekte CRAFTED und Europeana XX) eingesetzt. Im Zusammenhang mit AI4Culture wurde es erweitert, um die technische Komplexität automatischer semantischer Anreicherungsalgorithmen zu verbergen und eine nahtlose Interoperabilität mit dem gemeinsamen europäischen Datenraum für das Kulturerbe zu unterstützen. Zu diesem Zweck unterstützt die Plattform Formate, die für Metadaten zum Kulturerbe relevant sind, wie EDM (Europeana Data Model) und erleichtert den direkten Import von Metadaten aus Quellen im Zusammenhang mit dem Kulturerbe wie Europeana.eu oder dem MINT-Tool, das von mehreren Europeana-Aggregatoren verwendet wird.

Interessierte können SAGE vorerst hier ausprobieren. Der Quellcode ist auf GitHub verfügbar (Frontend, Backend). Sie können lernen, wie Sie SAGE verwenden, indem Sie einer Reihe von Video-Tutorials folgen und die Wiki-Anweisungen lesen.

Erfahren Sie mehr

Im September 2024 wird im Rahmen des Projekts AI4Culture eine Plattform eingerichtet, auf der offene Tools wie das oben vorgestellte SAGE-Tool zur semantischen Anreicherung zusammen mit zugehörigen Dokumentations- und Schulungsmaterialien online zur Verfügung gestellt werden. Behalten Sie die Projektseite auf Europeana Pro für weitere Details im Auge und bleiben Sie auf dem Laufenden über das Projekt LinkedIn und X-Konto!