Europeana Vertaal
Het eTranslation CEF Telecom-project Europeana Translate heeft tot doel de verbindingen tussen de eTranslation-infrastructuur en de gemeenschappelijke Europese dataruimte voor cultureel erfgoed, die door het Europeana-initiatief wordt ingezet, ten behoeve van beide te versterken. Enerzijds heeft het project tot doel de bruikbaarheid van bronnen van cultureel erfgoed te verbeteren door datasets van cultureel erfgoed te verrijken met meertalige metadata. Anderzijds worden de taalhulpbronnen die via de Europese coördinatie van taalhulpbronnen openlijk beschikbaar worden gesteld, uitgebreid met metagegevens van miljoenen cultureel erfgoedobjecten, die zorgvuldig zijn geselecteerd, schoongemaakt en genormaliseerd, zodat ze geschikt worden voor opleidingsdoeleinden.
Hiertoe heeft Europeana Translate machinevertalingstools ontwikkeld en ingezet die zijn aangepast aan de behoeften van de sector cultureel erfgoed. De instrumenten worden toegepast om de metadata van meer dan 25 miljoen records die momenteel beschikbaar zijn via de infrastructuur van Europeana te vertalen van 22 officiële EU-talen naar het Engels, waardoor de meertalige ervaring voor de gebruikers wordt verbeterd.
In de loop van het project hebben de partners een reeks vertaalengines van partner Pangeanic getraind met een selectie van metadata die zijn geselecteerd uit de infrastructuur van Europeana, waaronder tweetalige en eentalige gegevens en meertalige vocabularia. Er werd ook rekening gehouden met aanvullende gegevens van de OPUS-verzamelingswebsite voor talen die onvoldoende vertegenwoordigd waren. Een aantal experimenten werden uitgevoerd om te beslissen over de beste combinatie van trainingsgegevens en de opstelling van de motoren voor elke taal. Door gegevens te splitsen tussen opleidings- en testreeksen werd voor alle taalparen een automatische evaluatie uitgevoerd op basis van standaardmaatstaven (zoals BLEU en TER). De resultaten tonen een aanzienlijke verbetering ten opzichte van de generieke Pangeanic modellen (vóór de in-domein training) en de eTranslation DSI voor de meeste talen.
Evaluatie van de automatische vertaling door menselijke deskundigen
De automatische vertalingen werden ook uitgebreid geëvalueerd door taalkundigen en deskundigen op het gebied van cultureel erfgoed. De beoordelaars werd gevraagd om de automatische vertalingen in het Engels te beoordelen op een schaal van 0 tot 100, rekening houdend met aspecten zoals vloeiendheid (grammaticale correctheid), nauwkeurigheid (algemene betekenis) en adequaatheid (correct gebruik van terminologie). Ze werden ook gevraagd om aanvullende feedback te geven, waaronder het melden van belangrijke en terugkerende fouten. Via het CrowdHeritage-platform werden drie crowdsourcingcampagnes georganiseerd om leden van de culturele erfgoedsector te betrekken. In totaal waren er 44 deskundige taalkundigen en 29 professionals op het gebied van cultureel erfgoed, die een vrij hoge beoordeling gaven (meer dan 80%) voor de meerderheid van de 22 talen.
De resultaten verkregen door menselijke evaluatie gaven ons inzicht in het gedrag van de machinevertalingsengines voor verschillende talen. Een diepgaande statistische analyse van de toegekende beoordelingen van mensen, in samenhang met de automatische betrouwbaarheidsscores berekend door de machinevertalingsmotoren, stelde ons in staat om passende kwaliteitsdrempels te bepalen voor het publiceren van vertalingen uit verschillende talen naar de Europeana-infrastructuur.
Voordelen voor gebruikers en instellingen voor cultureel erfgoed
De vertaalengines worden door de infrastructuur van Europeana gebruikt om automatische Engelse vertalingen van metagegevens te produceren, te indexeren, te delen en weer te geven, waardoor mensen materiaal beter kunnen ontdekken, analyseren en hergebruiken.
Het positieve effect van deze werkzaamheden is bevestigd door een effectbeoordelingsenquête die is ingevuld door 27 taalkundigen en 18 deskundigen op het gebied van cultureel erfgoed. Gevraagd naar de toegevoegde waarde die automatische Engelse vertalingen kunnen hebben voor het zoeken naar en weergeven van cultureel erfgoed op de Europeana-website, vonden beide gemeenschappen dit belangrijk. Ze meldden ook dat ze de verwachte toename van het aantal zoekresultaten waardeerden, waaronder cultureel erfgoeditems die momenteel niet worden geretourneerd bij het zoeken in het Engels: 83,4 % en 62,9 % van de deskundigen en taalkundigen op het gebied van cultureel erfgoed vonden deze verbetering waardevol.
Bovendien kunnen de door het project opgezette vertaalengines nuttig zijn voor gegevensverstrekkers die de metagegevens van hun collecties naar het Engels willen vertalen, waardoor de toegankelijkheid van hun collecties wordt verbeterd. Gebruikers van het MINT-aggregatieplatform kunnen rechtstreeks gebruikmaken van de bestaande API-koppeling met de motoren, terwijl instellingen voor cultureel erfgoed met technische expertise kunnen profiteren van de gemakkelijk inzetbare machinevertalingsmotoren die openlijk beschikbaar worden gesteld op de ELG-repository. Alle deskundigen op het gebied van cultureel erfgoed die aan de enquête hebben deelgenomen, verklaarden dat zij zouden overwegen de tools van Europeana Translate te gebruiken om de collecties van hun organisatie te verrijken met automatische vertalingen om de vindbaarheid te verbeteren.
Europeana Translate Event - hoe machinevertaling & meertalige toegang van invloed is op cultureel erfgoed
Wilt u meer weten over het Europeana Translate-project, de methodologie en de resultaten ervan? Wilt u ook uw kennis van state-of-the-art machinevertalingstechnologieën verdiepen en hoe deze kan worden toegepast in de sector cultureel erfgoed?
Neem dan deel aan het Europeana Translate Event - How machine translation & multilingual access impacts cultural heritage. Dit is een online evenement dat plaatsvindt op 13 april 2023, van 14:00 tot 17:00 uur CEST. U hoort de projectpartners in detail de methodologie en resultaten toelichten die in deze twee jaar werk zijn verkregen. Soortgelijke projecten zullen ook worden besproken, waarbij altijd kritisch wordt gekeken naar het belang van geautomatiseerde vertalingen van gegevens/metagegevens over cultureel erfgoed met reflecties over toekomstige stappen, bruikbaarheid en uitdagingen van AI-technologie voor de sector cultureel erfgoed.
