Idete na "eXXtra" milju: nove tehnologije za obogaćivanje podataka o kulturnoj baštini

Objavljeno 27. lipnja 2022. po

Alexander Raginsky (Pangeanic)

Vassilis Tzouvaras (National Technical University of Athens)

Omogućivanje automatskog prevođenja radi obogaćivanja

API alat koji je razvio projektni partner Pangeanic otkriva jezik koji se koristi u metapodacima Europeane i omogućuje strojno prevođenje. Ovaj alat, nazvan Služba za automatsko prevođenje metapodataka o baštini (HM ATS), dio je niza alata za semantičko obogaćivanje koje je razvila Europeana XX.

Za izradu alata Pangeanic je izradio 10 neuralnih strojeva za strojno prevođenje (prevođenje talijanskog, njemačkog, češkog, grčkog, francuskog, švedskog, katalonskog, nizozemskog, poljskog i španjolskog na engleski). Koristili su se podacima o osposobljavanju iz vlastitih repozitorija poduzeća Pangeanic i otvorenim podacima na internetu. Pangeanic je također angažirao prevoditelje da prevedu ograničenu količinu zapisa iz repozitorija Europeane kako bi imali podatke o osposobljavanju specifične za Europeanu za nekoliko jezika.

Alat je korišten za prevođenje i obogaćivanje oko dva i pol milijuna zapisa tijekom projekta. Pangeanic je uspješno proširio i prilagodio alat kako bi odgovarao zahtjevima performansi tako velike količine podataka. Koristite API kod sami.

Kako bi ocijenili i potvrdili kvalitetu strojnog prevođenja, partneri su uspostavili i sustav potvrđivanja prijevoda (na temelju LabelStudio). Stručnjaci za kulturnu baštinu i izvorni govornici relevantnih jezika potvrdili su više od 2700 prijevoda s pomoću tog sustava. Povratne informacije bile su izrazito pozitivne, potvrđujući visoku kvalitetu neuralnog strojnog prevođenja i da dobro funkcionira u području digitalne kulturne baštine.

Potvrđeni prijevodi koristit će se za daljnje poboljšanje strojnog prevođenja u projektu Europeana Translate, u koji je uključen i Pangeanic. Cilj je ovog projekta pomoći Europeani u provedbi višejezične strategije pružanjem prijevoda metapodataka koji će omogućiti bolje pretraživanje i prikaz zbirki na njihovim materinskim jezicima i jezicima korisnika.

Obogaćivanje skupova podataka

SAGE, internetski alat za proizvodnju, obogaćivanje, objavljivanje, pristup i upravljanje skupovima podataka RDF-a, izradilo je Nacionalno tehničko sveučilište u Ateni (NTUA) za Europeanu XX. RDF (okvir za opis resursa) jezik je koji se upotrebljava za prikaz sadržaja skupa podataka. Podaci iz RDF-a mogu se izravno uvesti ili generirati iz različitih izvora i formata podataka, organizirati u skupovima podataka i obogatiti s pomoću bilješki. Ta se obogaćivanja zatim mogu ručno potvrditi. Svi skupovi podataka, uključujući sve napomene, mogu se objaviti u RDF trgovinama, indeksirati i pristupiti putem API poziva.

Zahvaljujući SAGE-u, odabrani dijelovi objavljenih skupova podataka sada se također mogu označiti i obogatiti vanjskim API uslugama, kao što su alati za povezivanje podataka s relevantnim Wikipodacima, DBPedia, Geonames i drugim resursima ili alati koji otkrivaju pojavu termina vokabulara u podacima. Nakon obogaćivanja u SAGE-u, oni se zatim ručno validiraju putem sustava koji omogućuje skupne validacije pomoću grupiranja teksta i sortiranja učestalosti teksta, dodjele zadataka validacije većem broju korisnika i pomnog praćenja cjelokupnog postupka validacije.

Alat SAGE također je korišten u projektu Pagode kako bi se automatski obogatilo više od 20 000 zapisa. U okviru projekta CRAFTED upotrebljavat će se i za analizu polja metapodataka i teksta iz alata za analizu sadržaja umjetne inteligencije kako bi se utvrdila i uklonila nesigurnost imenovanih subjekata. Krajnji je cilj obogatiti više od 100 000 zapisa i omogućiti korisničku validaciju i procjenu automatski izdvojenih subjekata.

Saznajte više

Sve alate razvijene u okviru projekta Europeana XX (i drugih projekata generičkih usluga) možete istražiti na stranici Europeana Services and Tools.

Idete na "eXXtra" milju: nove tehnologije za obogaćivanje podataka o kulturnoj baštini

Podijeli

Omogućivanje automatskog prevođenja radi obogaćivanja

Obogaćivanje skupova podataka

Saznajte više