EXXtras jūdze: jaunas tehnoloģijas kultūras mantojuma datu bagātināšanai

Publicēts 2022. gada 27. jūnijs autors

Alexander Raginsky (Pangeanic)

Vassilis Tzouvaras (National Technical University of Athens)

Automātiskās tulkošanas nodrošināšana bagātināšanai

Projekta partnera Pangeanic izstrādātais API rīks nosaka Europeana metadatos izmantoto valodu un ļauj to mašīntulkot. Šis rīks, ko sauc par Heritage Metadata Automatic Translation Service (HM ATS), ir daļa no semantiskās bagātināšanas rīku kopuma, ko izstrādājusi Europeana XX.

Lai izveidotu rīku, Pangeanic uzbūvēja 10 neironu mašīntulkošanas programmas (tulkojot itāļu, vācu, čehu, grieķu, franču, zviedru, katalāņu, holandiešu, poļu un spāņu uz angļu valodu). Viņi izmantoja mācību datus no Pangeanic pašu repozitorijiem un atvērtos datus internetā. Pangeanic arī nodarbināja tulkotājus, lai tulkotu ierobežotu skaitu ierakstu no Europeana repozitorijiem nolūkā iegūt Europeana specifiskus apmācības datus par vairākām valodām.

Šis rīks tika izmantots, lai projekta laikā tulkotu un bagātinātu aptuveni divarpus miljonus ierakstu. Pangeanic veiksmīgi paplašināja un precizēja rīku, lai tas atbilstu šāda milzīga datu apjoma veiktspējas prasībām. Izmantojiet API kodu pats.

Lai novērtētu un apstiprinātu mašīntulkošanas kvalitāti, partneri arī izveidoja tulkošanas validācijas sistēmu (pamatojoties uz LabelStudio). Kultūras mantojuma speciālisti un attiecīgo valodu speciālisti, kuriem tā ir dzimtā valoda, ir apstiprinājuši vairāk nekā 2700 tulkojumu, izmantojot šo sistēmu. Atsauksmes bija ļoti pozitīvas, apstiprinot neironu mašīntulkošanas augsto kvalitāti un to, ka tā labi darbojas digitālā kultūras mantojuma jomā.

Validētie tulkojumi tiks izmantoti, lai vēl vairāk uzlabotu mašīntulkošanas programmas projektā Europeana Translate, kurā ir iesaistīts arī Pangeanic. Šā projekta mērķis ir palīdzēt Europeana gūt panākumus daudzvalodu stratēģijas īstenošanā, nodrošinot metadatu tulkojumus, kas ļaus labāk meklēt un parādīt tās krājumus visās dzimtajās valodās un lietotāju valodās.

Bagātināšana ar datu kopām

SAGE, tīmekļa rīku RDF datu kopu sagatavošanai, bagātināšanai, publicēšanai, piekļuvei tām un to pārvaldībai, izstrādāja Atēnu Valsts tehniskā universitāte (NTUA) Europeana XX vajadzībām. RDF (resursu apraksta sistēma) ir valoda, ko izmanto, lai atspoguļotu datu kopas saturu. RDF datus var tieši importēt vai ģenerēt no dažādiem datu avotiem un formātiem, sakārtot datu kopās un bagātināt, izmantojot anotatorus. Šos bagātinājumus pēc tam var manuāli validēt. Visas datu kopas, tostarp visas anotācijas, var publicēt RDF veikalos, indeksēt un tām var piekļūt, izmantojot API izsaukumus.

Pateicoties SAGE, atsevišķas publicēto datu kopu daļas tagad var arī anotēt un papildināt, izmantojot ārējus API pakalpojumus, piemēram, rīkus, kas saista datus ar attiecīgajiem Wikidata, DBPedia, Geonames un citiem resursiem, vai rīkus, kas atklāj vārdnīcas terminu gadījumus datos. Kad bagātinājumi ir veikti sistēmā SAGE, tos manuāli validē sistēmā, kas ļauj veikt lielapjoma validāciju, izmantojot teksta grupēšanu un teksta biežuma šķirošanu, validācijas uzdevumu piešķiršanu vairākiem lietotājiem un vispārējā validācijas procesa ciešu uzraudzību.

SAGE rīks tika izmantots arī Pagode projektā, lai automātiski bagātinātu vairāk nekā 20 000 ierakstu. To izmantos arī projektā CRAFTED, lai analizētu metadatu laukus un tekstu, kas izgūts no mākslīgā intelekta satura analīzes rīkiem nolūkā identificēt un novērst nenoteiktību no nosauktajām vienībām. Galīgais mērķis ir bagātināt vairāk nekā 100 000 ierakstu un ļaut lietotājiem validēt un novērtēt automātiski iegūtās vienības.

Uzzināt vairāk

Visus rīkus, kas izstrādāti Europeana XX projekta (un citu vispārējo pakalpojumu projektu) ietvaros, varat izpētīt Europeana pakalpojumu un rīku lapā.

EXXtras jūdze: jaunas tehnoloģijas kultūras mantojuma datu bagātināšanai

Dalīties

Automātiskās tulkošanas nodrošināšana bagātināšanai

Bagātināšana ar datu kopām

Uzzināt vairāk