Sulje kohtaamiset tekoälyn kanssa: haastattelu automaattisesta semanttisesta rikastamisesta

Julkaistu 4. heinäkuuta 2024 by

Eirini Kaldeli (National Technical University of Athens)

Marco Rendina (European Fashion Heritage Association)

Alexandros Chortaras (National Technical University of Athens)

Marco Rendina: Aloitetaan perusasioista. Mitä on semanttinen rikastuminen?

Eirini Kaldeli: Semanttinen rikastus on prosessi, jossa strukturoimattomaan dataan, kuten vapaaseen tekstiin, lisätään uutta semantiikkaa, jotta koneet voivat ymmärtää sitä ja rakentaa yhteyksiä siihen. Kulttuuriperintökohteita kuvaavia tekstimuotoisia metatietoja voidaan analysoida ja täydentää kontrolloiduilla termeillä linkitetyistä avoimista tietoaineistoista tai sanastoista, kuten Wikidata tai Getty Art & Architecture Thesaurus (AAT). Näitä termejä kutsutaan yleisesti huomautuksiksi, ja ne voivat edustaa käsitteitä ja attribuutteja (kuten ”Costume” tai ”Renaissance”), henkilöitä, paikkoja, organisaatioita tai kronologisia ajanjaksoja. Esimerkiksi jouset ”Leonardo da Vinci” ja ”da Vinci, Leonardo” voidaan yhdistää Wikidatan kohtaan, joka edustaa Italian renessanssin polymateja.

MR: Miksi on tärkeää rikastaa metadataa linkitettyjen avointen tietoaineistojen tai sanastojen termeillä?

EK: Semanttinen rikastaminen lisää digitaalisten kokoelmien merkitystä ja kontekstia ja tekee niistä helpommin löydettäviä. Koska aloite on tärkeä, se on ollut Europeana-aloitteen sekä yksittäisten aggregaattoreiden ja tietojen toimittajien tärkein huolenaihe ja toimien painopiste.

Ensinnäkin linkitetyt tiedot tekevät tekstimuotoisista metatiedoista yksiselitteisiä. Esimerkiksi merkkijono ”Leonardo da Vinci” voi asiayhteydestä riippuen viitata myös Italian lentoasemaan tai samannimiseen taistelulaivaan. Kutakin näistä käsitteistä edustaa Wikidatan oma URI-tunniste (Unique Reference Identifier), ja näin ollen linkittämällä teksti oikeaan URI-tunnisteeseen käy selväksi, mihin teksti viittaa.

Toiseksi linkitettyjen tietojen avulla voimme hakea lisätietoja tietystä kokonaisuudesta, rakentaa yhteyksiä eri resurssien välille ja kontekstuaalisoida ne. Sen avulla voidaan esimerkiksi yhdistää käsitteeseen ”rengas” merkityt esineet laajempaan käsitteeseen ”korut” ja liittää ne käsitteeseen ”rannekoru”, joka on myös esimerkki ”koruista”.

Lisäksi linkitettyihin tietoihin liittyy yleensä käännöksiä, mikä parantaa monikielisen haun mahdollisuuksia. Näin verkkotietokantoja käyttävät voivat selata ja hakea kokoelmia ns. semanttisella tasolla: henkilö, joka hakee kirjainta ”κόσμημα” (kreikankielinen sana ”korut”), voi löytää sekä renkaiksi että rannekkeiksi kuvattuja esineitä.

MR: Alexandros, rikastava metadata vaatii ponnisteluja ja resursseja, joita kulttuuriperintölaitoksilta usein puuttuu. Miten digitaaliteknologia voi auttaa vastaamaan tähän haasteeseen?

Alexandros Chortaras: Kulttuuriperintölaitokset voivat käyttää uusinta teknologiaa automatisoidakseen manuaalisen, aikaa vievän ja usein arkipäiväisen metatietojen rikastamisprosessin. Luonnollisen kielen käsittelytyökaluja voidaan käyttää tekstimuotoisen metadatan analysointiin sekä strukturoimattomassa tekstissä mainittujen nimettyjen kokonaisuuksien, kuten henkilöiden tai sijaintien nimien, havaitsemiseen ja luokitteluun. Koneoppimisen lähestymistapoja käytetään laajalti nimetyn kokonaisuuden täsmentämiseen, jonka tehtävänä on päättää, viitataanko tekstissä esimerkiksi ilmaisuun ”Leonardo da Vinci” italialaisessa polymatiassa vai taistelulaivassa. Riippuen tekstin ominaisuuksista, kuten sen pituudesta ja kielestä, sanastosta, johon haluamme linkittää sen, ja siitä, minkä tyyppisiä kokonaisuuksia haluamme havaita, on yhdistettävä kuhunkin tehtävään parhaiten sopivat työkalut. Esimerkiksi aiemmista hankkeista, kuten CRAFTED-hankkeesta, saamamme kokemuksen perusteella jopa yksinkertainen lemmatisointi ja merkkijonojen täsmäyttäminen voi olla tarkoituksenmukaisempaa tietyissä tehtävissä, joissa konteksti on tarkasti määritelty, kuin monimutkaiset ML-pohjaiset algoritmit.

MR: Mutta voinko täysin luottaa automaattisen algoritmin tuloksiin? Entä jos se tekee virheitä?

AC: Itse asiassa automaattiset algoritmit, jotka analysoivat vapaata tekstiä nimetyn kokonaisuuden tunnistamiseksi ja täsmentämiseksi, tekevät virheitä. Tarkkuus riippuu käsillä olevasta tehtävästä ja käytetystä algoritmista. Esimerkiksi metatiedoissa yleisillä lyhyillä tekstikuvauksilla ei ole kontekstia, joten Wikipedia-artikkeleihin koulutetut ML-algoritmit voivat johtaa virheellisiin vastaavuuksiin.

Lisäksi, vaikka automaattisesti havaitut linkit olisivat oikeita, niitä voidaan pitää epätoivottuina tietyssä asiayhteydessä. Esimerkiksi metatietotietueiden linkittäminen värejä edustaviin termeihin voi olla tärkeää muotikokoelmalle, mutta se ei välttämättä ole toivottavaa kuvaamaan käsikirjoitusta, jossa sattuu mainitsemaan tietyn värin. Näin ollen ihmisen suorittama tarkastus ja automaattisten huomautusten validointi ovat välttämättömiä. Koska automaattisia huomautuksia on kuitenkin usein tuhansia, manuaalinen validointi voi olla hyvin resurssi-intensiivinen prosessi. Käytännön tasolla ihmisten olisi tarkasteltava valittua otosta huomautuksista ja päätettävä asianmukaisista suodatuskriteereistä tulosten ja tavoitteen mukaan.

MR: Viimeinen kysymys Eirinille. Siellä on monia algoritmeja ja kirjastoja, mutta näyttää siltä, että niiden perustamiseen tarvitaan huomattavaa teknistä tietämystä. Miten AI4Culture auttaa kulttuuriperintölaitoksia hyödyntämään näitä teknologioita?

ΕΚ: AI4Culture-hankkeen yhteydessä työskentelemme Ateenan kansallisen teknillisen yliopiston kehittämällä SAGE-alustalla. SAGE helpottaa kulttuuriperinnön metadatan semanttista rikastamista tarjoamalla joukon vakiintuneita huomautuksia (rikastemalleja), jotka on konfiguroitu palvelemaan alan tarpeita. Alusta tukee koko rikastustyönkulkua tietojen tuonnista ja semanttisten huomautusten automaattisesta tuotannosta ihmisen validointiin ja tietojen julkaisemiseen Europeanan odottamassa muodossa. Välinettä on käytetty menestyksekkäästi kulttuuriperinnön metatietojen rikastamiseen useissa sovelluksissa (muun muassa CRAFTED- ja Europeana XX -hankkeiden kautta). AI4Culturen yhteydessä sitä on laajennettu piilottamaan automaattisten semanttisten rikastusalgoritmien tekninen monimutkaisuus ja tukemaan saumatonta yhteentoimivuutta kulttuuriperinnön yhteisen eurooppalaisen data-avaruuden kanssa. Tätä varten alusta tukee kulttuuriperinnön metadatan kannalta merkityksellisiä formaatteja, kuten Europeanan tietomallia (Europeana Data Model), ja helpottaa metadatan suoraa tuontia kulttuuriperintöön liittyvistä lähteistä, kuten Europeana.eu-sivustolta tai useiden Europeanan aggregaattoreiden käyttämästä MINT-työkalusta.

Toistaiseksi kiinnostuneet ihmiset voivat kokeilla SAGEa täällä. Lähdekoodi on saatavilla GitHubissa (frontend, backend). Voit oppia käyttämään SAGEa seuraamalla video-opetusohjelmia ja lukemalla Wiki-ohjeita

Lue lisää

AI4Culture-hankkeella käynnistetään syyskuussa 2024 alusta, jolla avoimien työkalujen, kuten edellä esitetyn semanttisen rikastamisen SAGE-työkalun, sekä niihin liittyvän dokumentaation ja koulutusmateriaalin on määrä olla saatavilla verkossa. Seuraa Europeana Pron projektisivua saadaksesi lisätietoja ja pysy ajan tasalla projektin LinkedIn- ja X-tilistä!