Važiuojant "eXXtra" mylia: naujos kultūros paveldo duomenų praturtinimo technologijos

Paskelbta 2022 m. birželio 27 d. pagal

Alexander Raginsky (Pangeanic)

Vassilis Tzouvaras (National Technical University of Athens)

Galimybė atlikti automatinį vertimą siekiant praturtinti

Projekto partnerio „Pangeanic“ sukurta API priemonė aptinka „Europeanos“ metaduomenyse naudojamą kalbą ir leidžia ją išversti mašininiu būdu. Paveldo metaduomenų automatinio vertimo paslauga (angl. Heritage Metadata Automatic Translation Service, HM ATS) – tai „Europeana XX“ sukurtų semantinio sodrinimo priemonių rinkinio dalis.

Norėdami sukurti įrankį, "Pangeanic" pastatė 10 neuroninių mašininio vertimo variklių (iš italų, vokiečių, čekų, graikų, prancūzų, švedų, katalonų, olandų, lenkų ir ispanų kalbų į anglų kalbą). Jie naudojo „Pangeanic“ saugyklų mokymo duomenis ir atviruosius duomenis internete. „Pangeanic“ taip pat įdarbino vertėjus, kad jie išverstų ribotą kiekį įrašų iš „Europeanos“ saugyklų ir turėtų konkrečių „Europeanos“ mokymo duomenų keliomis kalbomis.

Įrankis buvo naudojamas išversti ir praturtinti maždaug du su puse milijono įrašų projekto metu. "Pangeanic" sėkmingai išplėtė ir patobulino įrankį, kad atitiktų tokio didelio duomenų kiekio našumo reikalavimus. Naudokite API kodą patys.

Siekdami įvertinti ir patvirtinti mašininio vertimo kokybę, partneriai taip pat sukūrė vertimo patvirtinimo sistemą (pagrįstą LabelStudio). Kultūros paveldo specialistai ir asmenys, kuriems atitinkama kalba yra gimtoji, naudodamiesi šia sistema patvirtino daugiau kaip 2 700 vertimų. Atsiliepimai buvo labai teigiami, o tai patvirtina aukštą neuroninio mašininio vertimo kokybę ir tai, kad jis gerai veikia skaitmeninio kultūros paveldo srityje.

Patvirtinti vertimai bus naudojami siekiant toliau tobulinti mašininio vertimo sistemas įgyvendinant projektą „Europeana Translate“, kuriame dalyvauja ir „Pangeanic“. Šio projekto tikslas – padėti Europeanai daryti pažangą įgyvendinant daugiakalbę strategiją, teikiant metaduomenų vertimus, kurie sudarys sąlygas geriau atlikti paiešką ir rodyti jos rinkinius jų gimtosiomis kalbomis ir naudotojų kalbomis.

Duomenų rinkinių praturtinimas

Atėnų nacionalinis technikos universitetas (NTUA) sukūrė internetinę priemonę „Europeana XX“, skirtą KRB duomenų rinkiniams rengti, praturtinti, skelbti, prie jų prieiti ir juos tvarkyti. RDF (išteklių aprašymo sistema) yra kalba, vartojama duomenų rinkinio turiniui pateikti. KRB duomenys gali būti tiesiogiai importuojami arba generuojami iš įvairių duomenų šaltinių ir formatų, sugrupuoti į duomenų rinkinius ir papildyti naudojant anotatorius. Tada šiuos sodrinimus galima patvirtinti rankiniu būdu. Visi duomenų rinkiniai, įskaitant visas pastabas, gali būti skelbiami RDF parduotuvėse, indeksuojami ir prieinami per API skambučius.

SAGE dėka tam tikros paskelbtų duomenų rinkinių dalys dabar taip pat gali būti anotuotos ir papildytos išorinėmis API paslaugomis, pvz., įrankiais, susiejančiais duomenis su atitinkamais Wikidata, DBPedia, Geonames ir kitais ištekliais, arba įrankiais, kurie aptinka žodyno terminų atsiradimą duomenyse. Kai patobulinimai atliekami sistemoje SAGE, jie patvirtinami rankiniu būdu, naudojant sistemą, kuri leidžia masinį patvirtinimą, naudojant teksto grupavimą ir teksto dažnio rūšiavimą, patvirtinimo užduočių priskyrimą keliems naudotojams ir atidžią bendro patvirtinimo proceso stebėseną.

SAGE įrankis taip pat buvo naudojamas "Pagode" projekte, kad automatiškai praturtintų daugiau nei 20 000 įrašų. Jis taip pat bus naudojamas projekte CRAFTED metaduomenų laukams ir tekstui, gautiems iš dirbtinio intelekto turinio analizės priemonių, analizuoti, siekiant nustatyti ir pašalinti įvardytų subjektų neapibrėžtumą. Galutinis tikslas – papildyti daugiau kaip 100 000 įrašų ir sudaryti sąlygas naudotojams patvirtinti ir įvertinti automatiškai išgaunamus subjektus.

Sužinokite daugiau

Visas priemones, sukurtas įgyvendinant projektą „Europeana XX“ (ir kitus bendrųjų paslaugų projektus), galite rasti puslapyje „Europeanos paslaugos ir priemonės“.

Važiuojant "eXXtra" mylia: naujos kultūros paveldo duomenų praturtinimo technologijos

Dalintis

Galimybė atlikti automatinį vertimą siekiant praturtinti

Duomenų rinkinių praturtinimas

Sužinokite daugiau