Automaatse tõlkimise võimaldamine rikastamiseks
Projektipartneri Pangeanic välja töötatud API-vahend tuvastab Europeana metaandmetes kasutatava keele ja võimaldab seda masintõlke abil tõlkida. See vahend, mille nimi on Heritage Metadata Automatic Translation Service (HM ATS), on osa Europeana XX välja töötatud semantilise rikastamise tööriistade komplektist.
Tööriista loomiseks ehitas Pangeanic 10 neuro masintõlkemootorit (tõlkides itaalia, saksa, tšehhi, kreeka, prantsuse, rootsi, katalaani, hollandi, poola ja hispaania keelest inglise keelde). Nad kasutasid Pangeanicu enda andmekogude koolitusandmeid ja internetis olevaid avatud andmeid. Pangeanic palkas ka tõlkijaid, kes tõlkisid piiratud hulgal Europeana andmekogudest pärit dokumente, et saada Europeana erikoolitusandmeid mitme keele kohta.
Vahendit kasutati projekti käigus ligikaudu kahe ja poole miljoni kirje tõlkimiseks ja rikastamiseks. Pangeanic laiendas ja viimistles tööriista edukalt, et see vastaks nii suure hulga andmete jõudlusnõuetele. Kasutage API-koodi ise.
Masintõlke kvaliteedi hindamiseks ja valideerimiseks lõid partnerid ka tõlke valideerimissüsteemi (põhineb LabelStudiosüsteemil). Kultuuripärandi spetsialistid ja asjaomaste keelte emakeelena kõnelejad on selle süsteemi abil valideerinud üle 2700 tõlke. Tagasiside oli valdavalt positiivne, kinnitades neuromasintõlke kõrget kvaliteeti ja seda, et see toimib hästi digitaalse kultuuripärandi valdkonnas.
Kinnitatud tõlkeid kasutatakse masintõlkemootorite täiustamiseks Europeana Translate projektis, milles osaleb ka Pangeanic. Projekti eesmärk on aidata Europeanal saavutada edu mitmekeelse strateegia rakendamisel, pakkudes metaandmete tõlkeid, mis võimaldavad paremini otsida ja kuvada Europeana kogusid nende emakeeles ja kasutajate keeltes.
Andmekogumite rikastamine
SAGE on veebipõhine vahend pöördtrummelahju andmestike tootmiseks, rikastamiseks, avaldamiseks, neile juurdepääsuks ja nende haldamiseks ning selle töötas Europeana XX jaoks välja Ateena riiklik tehnikaülikool (NTUA). RDF (ressursside kirjeldamise raamistik) on keel, mida kasutatakse andmekogumi sisu esitamiseks. RDF-andmeid saab otse importida või luua erinevatest andmeallikatest ja -vormingutest, rühmitada andmestikesse ja rikastada annotaatorite abil. Neid rikastamisi saab seejärel käsitsi valideerida. Kõiki andmekogumeid, sealhulgas märkusi, saab avaldada RDF-i kauplustes, indekseerida ja API-kõnede kaudu juurde pääseda.
Tänu SAGE-le saab avaldatud andmekogumite valitud osi nüüd ka väliste API-teenuste kaudu kommenteerida ja rikastada, näiteks tööriistad, mis seovad andmeid asjakohaste Wikidata, DBPedia, Geonames ja muude ressurssidega, või tööriistad, mis tuvastavad andmetes sõnavara terminite esinemise. Kui rikastamised on SAGE-s tehtud, valideeritakse need käsitsi süsteemi kaudu, mis võimaldab hulgivalideerimist, kasutades teksti rühmitamist ja tekstisageduse sorteerimist, valideerimisülesannete määramist mitmele kasutajale ja üldise valideerimisprotsessi hoolikat jälgimist.
Tööriista SAGE kasutati ka Pagode projektis, et automaatselt rikastada rohkem kui 20 000 kirjet. Seda kasutatakse ka projektis CRAFTED, et analüüsida metaandmete välju ja tehisintellekti sisu analüüsivahenditest saadud teksti, et teha kindlaks ja kõrvaldada nimetatud üksustest ebakindlus. Lõppeesmärk on rikastada rohkem kui 100 000 kirjet ning võimaldada automaatselt välja võetud üksuste kasutajapoolset valideerimist ja hindamist.
Uuri lähemalt
Kõiki Europeana XX projekti (ja muude üldteenuste projektide) raames välja töötatud vahendeid saab vaadata Europeana teenuste ja vahendite lehel.
