Mahdollistaa automaattisen kääntämisen rikastamista varten
Projektikumppani Pangeanicin kehittämä API-työkalu tunnistaa Europeanan metadatassa käytetyn kielen ja mahdollistaa sen konekääntämisen. Tämä työkalu on nimeltään Heritage Metadata Automatic Translation Service (HM ATS), ja se on osa Europeana XX:n kehittämiä semanttisia rikastustyökaluja.
Työkalun luomiseksi Pangeanic rakensi 10 hermokonekäännösmoottoria (kääntäen italian, saksan, tšekin, kreikan, ranskan, ruotsin, katalaanin, hollannin, puolan ja espanjan englanniksi). He käyttivät Pangeanicin omista tietovarastoista saatuja koulutustietoja ja avointa dataa internetissä. Pangeanic käytti myös kääntäjiä kääntämään rajoitetun määrän Europeana-tietokannoista peräisin olevia tietueita saadakseen Europeana-erityiskoulutustietoja useille kielille.
Työkalua käytettiin kääntämään ja rikastamaan noin kaksi ja puoli miljoonaa tietuetta projektin aikana. Pangeanic laajensi ja hienosääti työkalua onnistuneesti vastaamaan tällaisen massiivisen tietomäärän suorituskykyvaatimuksia. Käytä API-koodia itse.
Konekäännösten laadun arvioimiseksi ja validoimiseksi kumppanit perustivat myös käännösten validointijärjestelmän (joka perustuu LabelStudio-järjestelmään). Kulttuuriperintöalan ammattilaiset ja asianomaisia kieliä äidinkielenään puhuvat ovat validoineet yli 2 700 käännöstä tällä järjestelmällä. Palaute oli erittäin myönteistä, mikä vahvisti hermokonekäännöksen korkean laadun ja sen, että se toimii hyvin digitaalisen kulttuuriperinnön alalla.
Validoituja käännöksiä käytetään konekäännösmoottoreiden parantamiseen Europeana Translate -hankkeessa, johon myös Pangeanic osallistuu. Hankkeen tavoitteena on auttaa Europeanaa edistymään monikielisen strategiansa täytäntöönpanossa tarjoamalla metatietojen käännöksiä, joiden avulla sen kokoelmia voidaan hakea ja näyttää paremmin niiden äidinkielillä ja käyttäjien kielillä.
Tietoaineistojen rikastaminen
SAGE on verkkopohjainen työkalu pyörivällä rummulla varustettujen tietoaineistojen tuottamiseen, rikastamiseen, julkaisemiseen, käyttöön ja hallintaan. Sen on kehittänyt Ateenan kansallinen teknillinen yliopisto (NTUA) Europeana XX:tä varten. RDF (resource description framework) on kieli, jota käytetään kuvaamaan tietoaineiston sisältöä. RDF-tietoja voidaan tuoda tai tuottaa suoraan erilaisista tietolähteistä ja -muodoista, järjestää tietokokonaisuuksiin ja rikastaa huomautuksilla. Nämä rikasteet voidaan sitten validoida manuaalisesti. Kaikki tietoaineistot, mukaan lukien mahdolliset huomautukset, voidaan julkaista RDF-kaupoista, indeksoida ja käyttää API-puhelujen kautta.
SAGEn ansiosta julkaistujen tietoaineistojen valikoituja osia voidaan nyt myös kommentoida ja rikastaa ulkoisten API-palvelujen avulla, kuten työkaluilla, jotka yhdistävät tietoja asiaankuuluviin Wikidata-, DBPedia-, Geonames- ja muihin resursseihin, tai työkaluilla, jotka havaitsevat datassa esiintyvät sanastotermit. Kun rikasteet on tehty SAGEssa, ne validoidaan manuaalisesti järjestelmällä, joka mahdollistaa joukkovalidoinnin tekstin ryhmittelyn ja tekstin taajuuden lajittelun avulla, validointitehtävien osoittamisen useille käyttäjille ja yleisen validointiprosessin tiiviin seurannan.
SAGE-työkalua käytettiin myös Pagode-projektissa yli 20 000 tietueen automaattiseen rikastamiseen. Sitä käytetään myös CRAFTED-hankkeessa tekoälyn sisällönanalyysityökaluista poimittujen metatietokenttien ja tekstin analysointiin, jotta voidaan tunnistaa ja poistaa epävarmuus nimetyistä yhteisöistä. Lopullisena tavoitteena on rikastuttaa yli 100 000 tietuetta ja mahdollistaa käyttäjien validointi ja automaattisesti poimittujen yksiköiden arviointi.
Lue lisää
Voit tutustua kaikkiin Europeana XX -hankkeessa (ja muissa geneerisiä palveluja koskevissa hankkeissa) kehitettyihin työkaluihin Europeanan Palvelut ja työkalut -sivulla.
