Въз основа на най-съвременните услуги за машинен превод

Публикувано на 16 ноември 2022 г. от

Eirini Kaldeli (National Technical University of Athens)

Предизвикателството на многоезичните метаданни

Europeana работи с колекции, описани на не по-малко от 37 езика, и се стреми да ги съчетае с думи за търсене, които могат да се появят на всеки език. Всички елементи в колекциите на уебсайта Europeana са описани в набор от полета за метаданни, които предават съществена информация за тях, като например тяхното заглавие и създател. Тази информация помага на хората да открият и разберат предметите, които ги интересуват. Понастоящем по-голямата част от записите съдържат термини на един език — езика на доставчиците на данни. Тази липса на многоезични метаданни възпрепятства целта на Europeana да предлага широк достъп до колекцията си на различни езици.

Преодоляването на многоезичието в това отношение е доста предизвикателно начинание. На първо място, метаданните не са естествен език с пълни изречения и предвидима граматика; често се представя в кратки фрази или дори в отделни думи, което означава, че е трудно да се намери контекстът, необходим за точен превод. Освен това използваните термини могат да бъдат много специфични; те могат да изглеждат като общ термин, но имат различно значение, когато се използват в контекста на културното наследство.

Например, гръцкият религиозен термин, отразяващ Тайната вечеря, може да бъде неправилно преведен като Тайна вечеря. Отражението на този неточен превод - или липсата на превод на английски език - би било, че гръцки артефакти със заглавие или описание, отнасящи се до конкретната тема, няма да се появят сред резултатите, когато някой търси картини за Тайната вечеря на уебсайта Europeana.

Изграждане на мост между Europeana и общностите за цифрови услуги eTranslation

Как работи проектът Europeana Translate с други заинтересовани страни и инструменти за справяне с това предизвикателство?

Разработен от Европейската комисия, eTranslation е езиков инструмент, създаден с помощта на най-новите технологии в областта на ИИ, и е обучен за големите количества данни, налични както в рамките на институцията, така и събрани чрез усилия за събиране на езикови ресурси в целия ЕС. В хранилището ELRC-SHARE, използвано от eTranslation DSI, културното наследство е недостатъчно представено и в резултат на това съществуващите технологични решения не са толкова добре оборудвани, за да се справят със специфичните аспекти на данните за културното наследство.

В този контекст изграждането на сътрудничество между заинтересованите страни от общностите Europeana и eTranslation е от ключово значение за персонализирането на инструментите за машинен превод, така че те да могат да обслужват специфичните нужди на областта на културното наследство. Europeana Translate се стреми да обедини общностите eTranslation и Europeana, за да отговори на предизвикателствата, пред които са изправени и двата сектора. Подобряването на многоезичния достъп до цифровото културно наследство изисква редица допълващи се роли и експертен опит, които се обслужват от различните партньори на Europeana Translate (вж.ги тук).

Експерименти с машинен превод

През последните няколко месеца партньорите по проекта работиха заедно, за да подберат и по подходящ начин да сегментират и изчистят записите на метаданни от уебсайта на Europeana. След това тези данни бяха използвани от партньора по проекта Pangeanic, който ги използва в допълнение към 12 милиона текстови сегмента за превод от съществуващите ресурси на родовия език, за да подобри точността на алгоритмите за машинен превод при превода на метаданни за културното наследство.

Pangeanic проведе редица експерименти, като взе предвид различни комбинации от тренировъчни данни. Това включваше двуезични метаданни от Europeana, синтетични данни, получени от метаданни на един език, и многоезични речници, свързани с областта на културното наследство. Бяха разгледани и алтернативни източници на данни, извън Europeana, за езици, за които съществуват малко или никакви ресурси с преводи на английски език. Автоматичната оценка на тези експерименти с помощта на установени показатели позволи на партньорите да вземат решение за настройката за най-качествените автоматични преводи и да ги сравнят с резултатите, постигнати от други инструменти за превод, като Google Translate и eTranslate. Като цяло оценката показва подобрения в резултатите в сравнение с генеричните модели за повечето езици.

Машините за машинен превод, получени в резултат на този процес, ще бъдат използвани за превод на метаданни от 23-те официални езика на ЕС на английски (24-ия официален език). Тези преводачески машини ще бъдат използвани за генериране на автоматични преводи на английски език за най-малко 25 милиона записа на метаданни на платформата Europeana. Преводите ще бъдат индексирани и показвани, което ще подобри многоезичния потребителски опит на платформата Europeana. Посещавайки отново лицето, което търси артефакти, вдъхновени от религиозната тема на "Последната вечеря", след завършването на Europeana Translate, те ще имат достъп и до картини от Гърция, Румъния и много други страни, които понастоящем не са включени в резултатите от търсенето.

Освен това Europeana Translate ще предостави открит достъп до избраните и подходящо обработени езикови ресурси, които е произвела чрез хранилището ELRC-SHARE, под лиценз за свободна повторна употреба (CC0). Това ще даде възможност на общността за машинен превод да използва свободно достъпни данни за обучение, адаптиране и изпитване на своите преводачески услуги в областта на културното наследство.

Включване на хората в цикъла

През следващите месеци лингвисти и специалисти в областта на културното наследство ще извършат две допълнителни оценки на автоматичните преводи, изготвени в резултат на експериментите.

Инструментът за оценка на машинния превод ще бъде използван за оценка на точността и производителността на всичките 23 преводачески машини. Ще бъдат организирани три краудсорсинг кампании за ангажиране на специалисти в областта на културното наследство, които да помогнат за тестването и оценката на автоматичния превод (езиците, които ще бъдат оценени в това отношение, включват френски, италиански и нидерландски). Кампаниите също така ще ангажират аудиторията и ще повишат осведомеността в общността на културното наследство относно силата на услугите за автоматичен превод. Платформата CrowdHeritage ще се използва за представяне на автоматичните преводи в контекста на предметите на културното наследство, за които се отнасят.

Резултатите от тези оценки ще предоставят полезна информация и ще се използват за определяне на приемливия праг за качество за публикуване на автоматични преводи на Europeana и за използване на собствените платформи на организациите за културно наследство.

Научете повече и се включете

За да научите повече, можете да гледате встъпителен видеоклип, видеоклип за първите резултати от проекта, или да прочетете за архитектурата на Europeana Translate в този документ, представен на Европейската асоциация за машинен превод през 2022 г. Професионалистите в областта на аудиовизията, модата и музеите ще имат възможност да допринесат за проекта, като помогнат за оценката на резултатите в нашите нишови кампании, които ще се проведат в началото на 2023 г. Следете страницата на проявата Europeana Pro, за да научите повече.