Marco Rendina: Zacznijmy od podstaw. Czym jest wzbogacanie semantyczne?
Eirini Kaldeli: Wzbogacanie semantyczne to proces dodawania nowej semantyki do nieustrukturyzowanych danych, takich jak wolny tekst, aby maszyny mogły go zrozumieć i budować z nim połączenia. W przypadku metadanych tekstowych opisujących elementy dziedzictwa kulturowego można je analizować i uzupełniać kontrolowanymi terminami z połączonych otwartych zbiorów danych lub słowników, takich jak Wikidata lub Getty Art & Architecture Thesaurus (AAT). Terminy te są powszechnie określane jako adnotacje i mogą reprezentować pojęcia i atrybuty (takie jak „kostium” lub „renesans”), osoby, lokalizacje, organizacje lub okresy chronologiczne. Na przykład struny „Leonardo da Vinci” i „da Vinci, Leonardo” mogą być powiązane z pozycją Wikidata przedstawiającą włoski polimat renesansu.
MR: Dlaczego ważne jest wzbogacenie metadanych terminami z połączonych otwartych zbiorów danych lub słowników?
EK: Wzbogacanie semantyczne dodaje znaczenia i kontekstu zbiorom cyfrowym i czyni je łatwiejszymi do odkrycia. Biorąc pod uwagę jego znaczenie, inicjatywa Europeana, a także indywidualni agregatorzy i dostawcy danych stanowią główny problem i główny przedmiot działań.
Po pierwsze, połączone dane sprawiają, że metadane tekstowe są jednoznaczne. Na przykład napis „Leonardo da Vinci” może również odnosić się, w zależności od kontekstu, do włoskiego portu lotniczego lub pancernika o tej samej nazwie. Każda z tych koncepcji jest reprezentowana za pomocą dedykowanego URI (Unique Reference Identifier) z Wikidata, a zatem, łącząc tekst z prawidłowym URI, staje się jasne, do czego odnosi się tekst.
Po drugie, połączone dane pozwalają nam uzyskać dodatkowe informacje o określonym podmiocie, budować połączenia między różnymi zasobami i kontekstualizować je. Pozwala to na przykład na powiązanie przedmiotów oznaczonych terminem „pierścień” z szerszym pojęciem „biżuteria” i powiązanie ich z przedmiotami wzbogaconymi terminem „bransoletka”, który jest również przykładem „biżuterii”.
Wreszcie, połączone dane są zwykle dostarczane z tłumaczeniami, co poprawia możliwości wyszukiwania wielojęzycznego. Umożliwia to osobom korzystającym z repozytoriów internetowych przeglądanie i wyszukiwanie zbiorów w tzw. warstwie semantycznej: osoba, która wyszukuje „κόσμημα” (greckie słowo oznaczające „biżuterię”), będzie mogła odkryć przedmioty opisane jako pierścienie, a także bransoletki.
MR: Alexandros, wzbogacanie metadanych wymaga wysiłku i zasobów, których często brakuje instytucjom dziedzictwa kulturowego. W jaki sposób technologie cyfrowe mogą pomóc sprostać temu wyzwaniu?
Alexandros Chortaras: Instytucje dziedzictwa kulturowego mogą wykorzystywać najnowocześniejsze technologie do automatyzacji ręcznego, czasochłonnego i często przyziemnego procesu wzbogacania metadanych. Narzędzia do przetwarzania języka naturalnego mogą być wykorzystywane do analizy metadanych tekstowych oraz wykrywania i klasyfikowania nazwanych podmiotów, takich jak osoby lub nazwy lokalizacji, wymienionych w tekście nieustrukturyzowanym. Metody uczenia maszynowego są szeroko stosowane do zadania ujednoznacznienia nazwy podmiotu, które jest odpowiedzialne za podjęcie decyzji, czy na przykład odniesienie do „Leonardo da Vinci” w tekście odnosi się do włoskiego polimatu czy do pancernika. W zależności od cech tekstu, takich jak jego długość i język, słownictwo, z którym chcemy go połączyć, oraz rodzaj podmiotów, które chcemy wykryć, należy połączyć narzędzia, które są najbardziej odpowiednie do konkretnego zadania. Na przykład z naszych doświadczeń z poprzednimi projektami, takimi jak CRAFTED, wynika, że w przypadku niektórych zadań o dobrze zdefiniowanym ograniczonym kontekście nawet proste podejście do lemmatyzacji i dopasowywania łańcuchów może być bardziej odpowiednie niż złożone algorytmy oparte na ML.
MR: Ale czy mogę w pełni zaufać wynikom automatycznego algorytmu? A co, jeśli popełnia błędy?
AC: Rzeczywiście, automatyczne algorytmy, które analizują wolny tekst w celu rozpoznania i ujednoznacznienia nazwy podmiotu, popełniają błędy. Dokładność zależy od zadania i zastosowanego algorytmu. Na przykład krótkie opisy tekstowe, które są powszechne w metadanych, nie mają kontekstu, a zatem algorytmy ML przeszkolone w artykułach Wikipedii mogą powodować nieprawidłowe dopasowania.
Co więcej, nawet jeśli automatycznie wykryte linki są poprawne, w pewnym kontekście mogą zostać uznane za niepożądane. Na przykład łączenie rekordów metadanych z terminami reprezentującymi kolory może być ważne dla kolekcji mody, ale może być niepożądane w przypadku opisywania rękopisu, który wspomina o określonym kolorze. W związku z tym niezbędna jest kontrola przez człowieka i walidacja automatycznych adnotacji. Ponieważ jednak często występują tysiące automatycznych adnotacji, ręczna walidacja może być procesem bardzo zasobochłonnym. Na poziomie praktycznym ludzie powinni dokonać przeglądu wybranej próby adnotacji i, w zależności od wyników i celu, zdecydować o odpowiednich kryteriach filtrowania.
MR: Ostatnie pytanie do Eirini. Istnieje wiele algorytmów i bibliotek, ale wydaje się, że do ich utworzenia wymagana jest znaczna wiedza techniczna. W jaki sposób AI4Culture pomaga instytucjom dziedzictwa kulturowego korzystać z tych technologii?
ΕΚ: W ramach projektu AI4Culture pracujemy nad platformą o nazwie SAGE, opracowaną przez Narodowy Uniwersytet Techniczny w Atenach. SAGE ułatwia wzbogacanie semantyczne metadanych dziedzictwa kulturowego poprzez oferowanie zestawu uznanych adnotatorów (wzory wzbogacania) skonfigurowanych tak, aby służyły potrzebom sektora. Platforma obsługuje cały proces wzbogacania, od importu danych i automatycznego tworzenia adnotacji semantycznych po walidację przez człowieka i publikację danych w formacie oczekiwanym przez Europeanę. Narzędzie to zostało z powodzeniem wykorzystane do wzbogacenia metadanych dotyczących dziedzictwa kulturowego w kilku aplikacjach (w tym za pośrednictwem projektów CRAFTED i Europeana XX). W kontekście AI4Culture rozszerzono go, aby ukryć techniczną złożoność automatycznych algorytmów wzbogacania semantycznego i wspierać płynną interoperacyjność ze wspólną europejską przestrzenią danych na potrzeby dziedzictwa kulturowego. W tym celu platforma obsługuje formaty istotne dla metadanych dotyczących dziedzictwa kulturowego, takie jak EDM (Europeana Data Model) i ułatwia bezpośredni import metadanych ze źródeł związanych z dziedzictwem kulturowym, takich jak Europeana.eu lub narzędzie MINT wykorzystywane przez kilku agregatorów Europeana.
Na razie zainteresowani mogą wypróbować SAGE tutaj. Kod źródłowy jest dostępny na GitHub (frontend, backend). Możesz dowiedzieć się, jak korzystać z SAGE po serii samouczków wideo i przeczytaniu instrukcji Wiki
Dowiedz się więcej
We wrześniu 2024 r. w ramach projektu AI4Culture uruchomiona zostanie platforma, na której otwarte narzędzia, takie jak przedstawione powyżej narzędzie SAGE do wzbogacania semantycznego, zostaną udostępnione online wraz z powiązaną dokumentacją i materiałami szkoleniowymi. Obserwuj stronę projektu na Europeana Pro, aby uzyskać więcej informacji i bądź na bieżąco z projektem LinkedIn i kontem X!
