De uitdaging van meertalige metadata
Europeana werkt met collecties beschreven in maar liefst 37 talen en streeft ernaar deze te matchen met zoektermen die in elke taal kunnen voorkomen. Alle items in de collecties op de Europeana-website worden beschreven in een reeks metadatavelden die essentiële informatie over hen overbrengen, zoals hun titel en maker. Deze informatie helpt mensen om de objecten waarin ze geïnteresseerd zijn te ontdekken en te begrijpen. Momenteel bevatten de meeste records termen in één taal, de taal van de gegevensverstrekkers. Dit gebrek aan meertalige metagegevens belemmert de doelstelling van Europeana om brede toegang te bieden tot haar verzameling in alle talen.
Het aanpakken van meertaligheid in dit opzicht is een behoorlijk uitdagend streven. Om te beginnen is metadata geen natuurlijke taal met volledige zinnen en voorspelbare grammatica; het wordt vaak gepresenteerd in korte zinnen of zelfs in enkele woorden, wat betekent dat de context die nodig is voor een nauwkeurige vertaling moeilijk te vinden is. Bovendien kunnen de gebruikte termen zeer specifiek zijn; ze kunnen op een algemene term lijken, maar hebben een andere betekenis wanneer ze in een context van cultureel erfgoed worden gebruikt.
De Griekse religieuze term die het Laatste Avondmaal weerspiegelt, kan bijvoorbeeld verkeerd worden vertaald als Geheim Diner. De weerslag van deze onnauwkeurige vertaling - of het ontbreken van een vertaling naar het Engels helemaal - zou zijn dat Griekse artefacten met een titel of beschrijving die verwijzen naar het specifieke thema niet zou verschijnen onder de resultaten wanneer iemand zoekt naar schilderijen over het Laatste Avondmaal op de Europeana website.
Een brug slaan tussen Europeana en eTranslation Digital Service communities
Hoe werkt het Europeana Translate-project samen met andere belanghebbenden en instrumenten om deze uitdaging aan te gaan?
eTranslation, ontwikkeld door de Europese Commissie, is een taalinstrument dat is gemaakt met behulp van de nieuwste AI-technologieën en is getraind in de grote hoeveelheden gegevens die zowel intern beschikbaar zijn als worden verzameld via een EU-brede inspanning voor het verzamelen van taalhulpbronnen. In de ELRC-SHARE-repository die door eTranslation DSI wordt gebruikt, is cultureel erfgoed ondervertegenwoordigd, waardoor bestaande technologische oplossingen minder goed zijn toegerust om met de specifieke aspecten van gegevens over cultureel erfgoed om te gaan.
In dit verband is het opbouwen van samenwerking tussen belanghebbenden uit de Europeana- en eTranslation-gemeenschappen van cruciaal belang om machinevertalingstools aan te passen zodat deze kunnen voldoen aan de specifieke behoeften van het domein cultureel erfgoed. Europeana Translate wil de eTranslation- en de Europeana-gemeenschappen samenbrengen om de uitdagingen aan te pakken waarmee beide sectoren worden geconfronteerd. Om de meertalige toegang tot digitaal cultureel erfgoed te verbeteren, moeten de diverse partners van Europeana Translate een aantal complementaire rollen en expertise vervullen (ziehier).
Experimenten met machinevertaling
In de afgelopen maanden hebben projectpartners samengewerkt om metadatarecords van de Europeana-website te selecteren en op de juiste manier te segmenteren en op te schonen. Deze gegevens werden vervolgens benut door projectpartner Pangeanic, die ze bovenop 12 miljoen tekstuele vertaalsegmenten uit bestaande generieke taalbronnen gebruikte om de nauwkeurigheid van machinevertalingsalgoritmen bij het vertalen van metagegevens over cultureel erfgoed te verbeteren.
Pangeanic voerde een aantal experimenten uit waarbij verschillende combinaties van trainingsgegevens werden overwogen. Dit omvatte tweetalige metagegevens van Europeana, synthetische gegevens uit metagegevens in één taal en meertalige vocabulaires die relevant zijn voor het domein cultureel erfgoed. Alternatieve bronnen van gegevens, buiten Europeana, werden ook overwogen voor talen waarvoor weinig of geen bronnen met vertalingen naar het Engels bestaan. De automatische evaluatie van deze experimenten met behulp van gevestigde statistieken stelde partners in staat om te beslissen over de installatie voor de beste kwaliteit automatische vertalingen en deze te vergelijken met de resultaten die werden bereikt met andere vertaaltools, zoals Google Translate en eTranslate. In het algemeen blijkt uit de evaluatie dat de resultaten voor de meeste talen zijn verbeterd ten opzichte van generieke modellen.
De machinevertalingsengines die uit dit proces voortvloeien, zullen worden gebruikt om metagegevens uit de 23 officiële EU-talen naar het Engels (de 24e officiële taal) te vertalen. Deze vertaalengines zullen worden gebruikt om automatische Engelse vertalingen te genereren voor ten minste 25 miljoen metadatarecords op het Europeana-platform. De vertalingen worden geïndexeerd en weergegeven, waardoor de meertalige gebruikerservaring op het Europeana-platform wordt verbeterd. Als ze de persoon die naar artefacten zoekt die geïnspireerd zijn op het religieuze thema van het 'Laatste Avondmaal' opnieuw bezoeken, na de voltooiing van Europeana Translate, krijgen ze ook toegang tot schilderijen uit Griekenland, Roemenië en vele andere landen die momenteel niet in de zoekresultaten zijn opgenomen.
Bovendien zal Europeana Translate de geselecteerde en op passende wijze verwerkte taalbronnen die zij via de ELRC-SHARE-repository heeft geproduceerd, openlijk beschikbaar stellen onder een licentie voor gratis hergebruik (CC0). Dit zal de machinevertalingsgemeenschap in staat stellen gebruik te maken van open data om hun vertaaldiensten op het gebied van cultureel erfgoed op te leiden, aan te passen en te testen.
Betrokkenheid van mensen in de lus
In de komende maanden zullen twee complementaire evaluaties van de automatische vertalingen die door de experimenten worden geproduceerd, worden uitgevoerd door taalkundigen en professionals op het gebied van cultureel erfgoed.
De Machine Translation Evaluation Tool zal worden gebruikt om de nauwkeurigheid en prestaties van alle 23 vertaalengines te evalueren. Er zullen drie crowdsourcingcampagnes worden georganiseerd om professionals op het gebied van cultureel erfgoed te betrekken bij het testen en evalueren van automatische vertalingen (de talen die in dit verband moeten worden geëvalueerd, zijn Frans, Italiaans en Nederlands). De campagnes zullen ook het publiek betrekken en de gemeenschap van cultureel erfgoed bewust maken van de kracht van automatische vertaaldiensten. Het CrowdHeritage-platform zal worden gebruikt om de automatische vertalingen te presenteren in het kader van de cultureel erfgoeditems waarnaar ze verwijzen.
De resultaten van deze evaluaties zullen nuttige inzichten opleveren en worden gebruikt om de aanvaardbare kwaliteitsdrempel te bepalen voor de publicatie van automatische vertalingen naar Europeana en voor gebruik op de eigen platforms van organisaties voor cultureel erfgoed.
Kom meer te weten en doe mee
Voor meer informatie kunt u een inleidende video bekijken, een video over de eerste resultaten van het project bekijken of meer lezen over de architectuur van Europeana Translate in dit document dat wordt gepresenteerd op de European Association for Machine Translation 2022. Professionals op het gebied van audiovisuele media, mode en musea krijgen de kans om bij te dragen aan het project door de resultaten te helpen evalueren in onze niche-sourcingcampagnes, die begin 2023 zullen plaatsvinden. Houd de Europeana Pro-evenementpagina in de gaten voor meer informatie.
