Pojdite na miljo eXXtra: nove tehnologije za obogatitev podatkov o kulturni dediščini

Objavljeno 27. junij 2022 po

Alexander Raginsky (Pangeanic)

Vassilis Tzouvaras (National Technical University of Athens)

Omogočanje samodejnega prevajanja za obogatitev

Orodje API, ki ga je razvil projektni partner Pangeanic, zazna jezik, ki se uporablja v metapodatkih Europeane, in omogoča strojno prevajanje. To orodje, imenovano služba za samodejno prevajanje metapodatkov o dediščini (HM ATS), je del zbirke orodij za semantično obogatitev, ki jih je razvila Europeana XX.

Za izdelavo orodja je Pangeanic izdelal 10 nevronskih strojnih prevajalnikov (prevajanje italijanščine, nemščine, češčine, grščine, francoščine, švedščine, katalonščine, nizozemščine, poljščine in španščine v angleščino). Uporabili so podatke o usposabljanju iz lastnih repozitorijev družbe Pangeanic in odprte podatke na internetu. Pangeanic je zaposlil tudi prevajalce, ki so prevedli omejeno količino zapisov iz repozitorijev Europeane, da bi pridobili posebne učne podatke Europeane za več jezikov.

Orodje je bilo uporabljeno za prevajanje in obogatitev približno dveh milijonov in pol zapisov med projektom. Pangeanic je uspešno razširil in izpopolnil orodje, da bi ustrezalo zahtevam glede učinkovitosti tako velike količine podatkov. Uporabite API kodo tudi sami.

Za ocenjevanje in potrjevanje kakovosti strojnega prevajanja so partnerji vzpostavili tudi sistem za potrjevanje prevodov (na podlagi LabelStudio). Strokovnjaki za kulturno dediščino in materni govorci ustreznih jezikov so s tem sistemom potrdili več kot 2 700 prevodov. Povratne informacije so bile večinoma pozitivne, kar potrjuje visoko kakovost nevronskega strojnega prevajanja in njegovo dobro delovanje na področju digitalne kulturne dediščine.

Potrjeni prevodi bodo uporabljeni za nadaljnje izboljšanje strojnih prevajalnikov v projektu Europeana Translate, v katerega je vključena tudi družba Pangeanic. Cilj tega projekta je pomagati Europeani pri napredku pri izvajanju njene večjezične strategije z zagotavljanjem prevodov metapodatkov, ki bodo omogočili boljše iskanje in prikaz zbirk v njihovih maternih jezikih in jezikih uporabnikov.

Obogatitev naborov podatkov

SAGE, spletno orodje za izdelavo, obogatitev, objavo, dostop in upravljanje naborov podatkov RDF, je razvila Nacionalna tehnična univerza v Atenah (NTUA) za Europeano XX. RDF (okvir za opis virov) je jezik, ki se uporablja za predstavitev vsebine nabora podatkov. Podatki RDF se lahko neposredno uvozijo ali ustvarijo iz različnih virov in oblik podatkov, organizirajo v nabore podatkov in obogatijo z uporabo oznak. Te obogatitve se nato lahko ročno potrdijo. Vsi nabori podatkov, vključno z morebitnimi opombami, se lahko objavijo v trgovinah RDF, indeksirajo in so dostopni prek klicev API.

Zahvaljujoč SAGE lahko izbrane dele objavljenih naborov podatkov zdaj označimo in obogatimo tudi z zunanjimi storitvami API, kot so orodja, ki povezujejo podatke z ustreznimi Wikipodatki, DBPedia, Geonames in drugimi viri, ali orodja, ki zaznajo pojave besednih izrazov v podatkih. Ko so obogatitve izvedene v sistemu SAGE, se nato ročno validirajo prek sistema, ki omogoča množično validacijo z razvrščanjem besedil v skupine in razvrščanjem besedilne frekvence, dodeljevanjem nalog validacije več uporabnikom in skrbnim spremljanjem celotnega postopka validacije.

Orodje SAGE je bilo uporabljeno tudi v projektu Pagode za samodejno obogatitev več kot 20.000 zapisov. Uporabljal se bo tudi v projektu CRAFTED za analizo metapodatkovnih polj in besedila, pridobljenih iz orodij za analizo vsebine umetne inteligence, da bi opredelili in odpravili negotovost pri imenovanih subjektih. Končni cilj je obogatiti več kot 100.000 zapisov in omogočiti preverjanje uporabnikov in ocenjevanje samodejno pridobljenih entitet.

Izvedite več

Vsa orodja, razvita v okviru projekta Europeana XX (in drugih projektov generičnih storitev), si lahko ogledate na strani o storitvah in orodjih Europeane.

Pojdite na miljo eXXtra: nove tehnologije za obogatitev podatkov o kulturni dediščini

Deli

Omogočanje samodejnega prevajanja za obogatitev

Obogatitev naborov podatkov

Izvedite več