Automatische vertaling voor verrijking mogelijk maken
Een API-tool ontwikkeld door projectpartner Pangeanic detecteert de taal die wordt gebruikt in Europeana-metadata en maakt het mogelijk om deze machinaal te vertalen. Deze tool, die de naam Heritage Metadata Automatic Translation Service (HM ATS) heeft gekregen, maakt deel uit van een reeks semantische verrijkingstools die door Europeana XX zijn ontwikkeld.
Om de tool te maken, bouwde Pangeanic 10 neurale machinevertalingsmotoren (vertalen van Italiaans, Duits, Tsjechisch, Grieks, Frans, Zweeds, Catalaans, Nederlands, Pools en Spaans naar Engels). Zij gebruikten opleidingsgegevens van Pangeanic’s eigen repositories en open gegevens op het internet. Pangeanic heeft ook vertalers in dienst genomen om een beperkt aantal records uit Europeana-registers te vertalen om Europeana-specifieke opleidingsgegevens voor verschillende talen te hebben.
De tool werd gebruikt om ongeveer twee en een half miljoen records te vertalen en te verrijken tijdens het project. Pangeanic heeft de tool met succes uitgebreid en verfijnd om te voldoen aan de prestatievereisten van zo'n enorme hoeveelheid gegevens. Gebruik de API-code zelf.
Om de kwaliteit van machinevertalingen te evalueren en te valideren, zetten de partners ook een validatiesysteem voor vertalingen op (gebaseerd op LabelStudio). Professionals op het gebied van cultureel erfgoed en moedertaalsprekers van relevante talen hebben meer dan 2.700 vertalingen gevalideerd met dit systeem. De feedback was overweldigend positief, wat de hoge kwaliteit van de neurale machinevertaling bevestigt en dat het goed werkt voor het domein van digitaal cultureel erfgoed.
Gevalideerde vertalingen zullen worden gebruikt om machinevertalingsengines verder te verbeteren in het Europeana Translate-project, waarbij Pangeanic ook betrokken is. Het doel van dit project is Europeana te helpen vooruitgang te boeken bij de uitvoering van haar meertalige strategie, door metagegevens te vertalen die het mogelijk maken haar collecties beter te zoeken en weer te geven in hun moedertalen en de talen van de gebruikers.
Verrijking voor datasets
SAGE, een webgebaseerde tool voor het produceren, verrijken, publiceren, openen en beheren van RDF-datasets, is ontwikkeld door de Nationale Technische Universiteit van Athene (NTUA) voor Europeana XX. RDF (resource description framework) is een taal die wordt gebruikt om de inhoud van een dataset weer te geven. RDF-gegevens kunnen rechtstreeks worden geïmporteerd of gegenereerd uit verschillende gegevensbronnen en -formaten, worden georganiseerd in datasets en worden verrijkt met annotators. Deze verrijkingen kunnen vervolgens handmatig worden gevalideerd. Alle datasets, inclusief eventuele annotaties, kunnen worden gepubliceerd in RDF-stores, geïndexeerd en toegankelijk zijn via API-aanroepen.
Dankzij SAGE kunnen geselecteerde delen van gepubliceerde datasets nu ook worden geannoteerd en verrijkt via externe API-services, zoals tools die gegevens koppelen aan relevante Wikidata, DBPedia, Geonames en andere bronnen, of tools die voorkomen van woordenschattermen in de gegevens detecteren. Zodra verrijkingen zijn gemaakt in SAGE, worden ze vervolgens handmatig gevalideerd via een systeem dat bulkvalidaties mogelijk maakt met behulp van tekstgroepering en tekstfrequentiesortering, toewijzing van validatietaken aan meerdere gebruikers en nauwlettende monitoring van het algehele validatieproces.
De SAGE-tool werd ook gebruikt in het Pagode-project om automatisch meer dan 20.000 records te verrijken. Het zal ook worden gebruikt in het CRAFTED-project om metagegevensvelden en tekst te analyseren die zijn geëxtraheerd uit instrumenten voor de analyse van inhoud op basis van artificiële intelligentie om onzekerheid bij met name genoemde entiteiten te identificeren en weg te nemen. Het uiteindelijke doel is om meer dan 100.000 records te verrijken en gebruikersvalidatie en beoordeling van automatisch geëxtraheerde entiteiten mogelijk te maken.
Meer informatie
U kunt alle instrumenten die zijn ontwikkeld in het kader van het Europeana XX-project (en andere generieke dienstenprojecten) verkennen op de pagina Europeana Diensten en hulpmiddelen.
