Tæt møder med AI: et interview om automatisk semantisk berigelse

Offentliggjort 4. juli 2024 ved

Eirini Kaldeli (National Technical University of Athens)

Marco Rendina (European Fashion Heritage Association)

Alexandros Chortaras (National Technical University of Athens)

Marco Rendina: Lad os starte med det grundlæggende. Hvad er semantisk berigelse?

Eirini Kaldeli: Semantisk berigelse er processen med at tilføje nye semantik til ustrukturerede data, såsom fri tekst, så maskiner kan få mening ud af det og opbygge forbindelser til det. I tilfælde af tekstmæssige metadata, der beskriver kulturarvsgenstande, kan disse analyseres og suppleres med kontrollerede udtryk fra sammenkædede åbne datasæt eller ordforråd, såsom Wikidata eller Getty Art & Architecture Thesaurus (AAT). Disse udtryk betegnes almindeligvis som anmærkninger og kan repræsentere begreber og attributter (såsom "Costume" eller "Renaissance"), personer, steder, organisationer eller kronologiske perioder. Strengene "Leonardo da Vinci" og "da Vinci, Leonardo" kan f.eks. begge knyttes til Wikidata-elementet, der repræsenterer den italienske renæssancepolymatisme.

MR: Hvorfor er det vigtigt at berige metadata med termer fra sammenkædede åbne datasæt eller ordforråd?

EK: Semantisk berigelse tilføjer mening og kontekst til digitale samlinger og gør dem lettere at opdage. I betragtning af dets betydning har det været et hovedanliggende og fokus for indsatsen fra Europeana-initiativet samt individuelle aggregatorer og dataleverandører.

For det første gør sammenkædede data tekstbaserede metadata entydige. F.eks. kan strengen "Leonardo da Vinci" afhængigt af konteksten også henvise til den italienske lufthavn eller et slagskib med samme navn. Hvert af disse begreber er repræsenteret via en dedikeret URI (Unique Reference Identifier) fra Wikidata, og ved at sammenkæde teksten med den korrekte URI bliver det således klart, hvad teksten refererer til.

For det andet giver sammenkædede data os mulighed for at hente yderligere oplysninger om en bestemt enhed, opbygge forbindelser mellem forskellige ressourcer og kontekstualisere dem. Det giver os f.eks. mulighed for at forbinde varer, der er mærket med udtrykket "ring", med det bredere begreb "smykker" og forbinde dem med varer, der er beriget med udtrykket "armbånd", hvilket også er et eksempel på "smykker".

Endelig leveres sammenkædede data normalt med oversættelser, hvilket forbedrer mulighederne for flersproget søgning. Dette gør det muligt for dem, der anvender onlinedatabaser, at gennemse og søge i samlinger på det såkaldte "semantiske lag": En person, der søger efter "κόσμημα" (det græske ord for "smykker"), vil kunne finde genstande, der beskrives som ringe og armbånd.

MR: Alexandros, berigende metadata kræver en indsats og ressourcer, som kulturarvsinstitutioner ofte mangler. Hvordan kan digitale teknologier hjælpe med at tackle denne udfordring?

Alexandros Chortaras: Kulturarvsinstitutioner kan bruge avancerede teknologier til at automatisere den manuelle, tidskrævende og ofte verdslige proces med metadataberigelse. Værktøjer til behandling af naturligt sprog kan anvendes til at analysere tekstmetadata og registrere og klassificere navngivne enheder, f.eks. personer eller stednavne, der er nævnt i ustruktureret tekst. Maskinlæringstilgange anvendes i vid udstrækning til opgaven med at angive en enheds tvetydighed, som er ansvarlig for at afgøre, om f.eks. henvisningen til "Leonardo da Vinci" i teksten henviser til den italienske polymatematik eller til slagskibet. Afhængigt af tekstens karakteristika, såsom dens længde og sprog, det ordforråd, som vi ønsker at knytte det til, og den type enheder, vi ønsker at opdage, skal man kombinere de værktøjer, der er mest hensigtsmæssige til den specifikke opgave. Ud fra vores erfaringer med tidligere projekter som CRAFTED kan selv en simpel lemmatiserings- og strengmatchningstilgang for visse opgaver med en veldefineret begrænset kontekst være mere hensigtsmæssig end komplekse ML-baserede algoritmer.

MR: Men kan jeg stole fuldt ud på resultaterne af en automatisk algoritme? Hvad hvis den begår fejl?

AC: Automatiske algoritmer, der analyserer fritekst til navngivet enhedsgenkendelse og tvetydighed, begår fejl. Nøjagtigheden afhænger af den aktuelle opgave og den anvendte algoritme. For eksempel mangler korte tekstbeskrivelser, der er almindelige i metadata, kontekst, og derfor kan ML-algoritmer, der er trænet på Wikipedia-artikler, resultere i forkerte match.

Selv om de automatisk registrerede links er korrekte, kan de desuden betragtes som uønskede i en bestemt sammenhæng. For eksempel kan sammenkædning af metadataposter med udtryk, der repræsenterer farver, være vigtigt for en modesamling, men det kan være uønsket at beskrive et manuskript, der tilfældigvis nævner en bestemt farve. Derfor er menneskelig inspektion og validering af automatiske anmærkninger uundværlig. Men da der ofte er tusindvis af automatiske anmærkninger, kan manuel validering være en meget ressourcekrævende proces. På det praktiske plan bør mennesker gennemgå en udvalgt stikprøve af anmærkningerne og afhængigt af resultaterne og målet træffe afgørelse om passende filtreringskriterier.

MR: Et sidste spørgsmål til Eirini. Der er mange algoritmer og biblioteker derude, men det ser ud til, at der kræves betydelig teknisk viden for at oprette dem. Hvordan hjælper AI4Culture kulturarvsinstitutioner med at drage fordel af disse teknologier?

EK: I forbindelse med AI4Culture-projektet arbejder vi på en platform kaldet SAGE, der er udviklet af Athens nationale tekniske universitet. SAGE letter den semantiske berigelse af kulturarvsmetadata ved at tilbyde en række etablerede annotatorer (berigelsesskabeloner), der er konfigureret til at opfylde sektorens behov. Platformen understøtter hele berigelsesworkflowet fra dataimport og automatisk produktion af semantiske anmærkninger til menneskelig validering og dataoffentliggørelse i det format, der forventes af Europeana. Værktøjet er med succes blevet anvendt til at berige kulturarvsmetadata i flere applikationer (herunder gennem CRAFTED- og Europeana XX-projekterne). I forbindelse med AI4Culture er den blevet udvidet for at skjule den tekniske kompleksitet af automatiske semantiske berigelsesalgoritmer og for at støtte problemfri interoperabilitet med det fælles europæiske dataområde for kulturarv. Med henblik herpå understøtter platformen formater, der er relevante for kulturarvsmetadata, såsom EDM (Europeana Data Model), og letter direkte import af metadata fra kulturarvsrelaterede kilder såsom Europeana.eu eller MINT-værktøjet, der anvendes af flere Europeana-aggregatorer.

Interesserede kan prøve SAGE her. Kildekoden er tilgængelig på GitHub (frontend, backend). Du kan lære at bruge SAGE ved at følge en række videovejledninger og læse Wiki-instruktionerne

Læs mere

I september 2024 vil AI4Culture-projektet lancere en platform, hvor åbne værktøjer såsom SAGE-værktøjet til semantisk berigelse, der er beskrevet ovenfor, vil blive gjort tilgængelige online sammen med tilhørende dokumentation og uddannelsesmateriale. Hold øje med projektsiden på Europeana Pro for flere detaljer og hold øje med projektet LinkedIn og X konto!