Europeana Превод
Проектът eTranslation CEF Telecom Europeana Translate има за цел да укрепи връзките между инфраструктурата eTranslation и общото европейско пространство за данни за културното наследство, внедрено от инициативата Europeana, в полза и на двете. От една страна, проектът има за цел да подобри използваемостта на ресурсите на културното наследство чрез обогатяване на наборите от данни за културното наследство с многоезични метаданни. От друга страна, с него се подобряват езиковите ресурси, които са публично достъпни чрез европейската координация на езиковите ресурси, с метаданни от милиони обекти на културното наследство, които са внимателно подбрани, почистени и нормализирани, така че да могат да бъдат обработвани за целите на обучението.
За тези цели Europeana Translate разработи и внедри инструменти за машинен превод, адаптирани към нуждите на сектора на културното наследство. Инструментите се прилагат за превод на метаданните на повече от 25 милиона записа, които понастоящем са достъпни чрез инфраструктурата на Europeana, от 22 официални езика на ЕС на английски език, като по този начин се подобрява многоезичният опит, предоставян на нейните потребители.
В хода на проекта партньорите обучиха набор от преводачески машини, предоставени от партньора Pangeanic, с подбрани метаданни от инфраструктурата на Europeana, включително двуезични и едноезични данни, както и многоезични речници. Допълнителни данни, избрани от уебсайта за събиране на OPUS, също бяха разгледани за езици, които не са представени в достатъчна степен. Бяха проведени редица експерименти, за да се вземе решение за най-добрата комбинация от данни за обучение и настройка на двигателите за всеки език. Чрез разделяне на данните между обучението и наборите от тестове беше извършена автоматична оценка въз основа на стандартни показатели (като BLEU и TER) за всички езикови двойки. Резултатите показват значително подобрение в сравнение с общите пангеански модели (преди обучението в областта) и DSI за eTranslation за повечето езици.
Оценка на автоматичния превод от експерти
Автоматичните преводи също бяха подложени на задълбочена оценка от лингвисти и експерти в областта на културното наследство. Оценителите бяха помолени да оценят автоматичните преводи на английски език по скала от 0 до 100, като вземат предвид аспекти като плавност (граматическа коректност), точност (общо значение) и адекватност (правилно използване на терминологията). Те бяха помолени също така да предоставят допълнителна обратна информация, включително да докладват за важни и повтарящи се грешки. Чрез платформата CrowdHeritage бяха организирани три краудсорсинг кампании за ангажиране на членове на сектора на културното наследство. Като цяло в тях участваха 44 експертни лингвисти и 29 специалисти в областта на културното наследство, които дадоха доста високи оценки (над 80 %) за по-голямата част от 22-те езика.
Резултатите, получени чрез човешка оценка, ни предоставиха информация за поведението на машините за машинен превод за различните езици. Задълбоченият статистически анализ на присъдените от хората оценки във връзка с автоматичните оценки на доверието, изчислени от машините за машинен превод, ни позволи да определим подходящи прагове за качество за публикуване на преводи от различни езици в инфраструктурата на Europeana.
Ползи за ползвателите и институциите в областта на културното наследство
Преводаческите машини се използват от инфраструктурата на Europeana за изготвяне, индексиране, споделяне и показване на автоматични преводи на английски език на метаданни, което ще позволи на хората по-добре да откриват, анализират и използват повторно материали.
Положителното въздействие на тази работа беше потвърдено от проучване за оценка на въздействието, попълнено от 27 лингвисти и 18 експерти в областта на културното наследство. Запитани за добавената стойност, която автоматичните преводи на английски език могат да донесат за търсенето и показването на предмети на културното наследство на уебсайта Europeana, и двете общности счетоха това за важно. Те също така съобщиха, че оценяват очакваното увеличение на броя на резултатите от търсенето, които ще включват предмети на културното наследство, които понастоящем не се връщат при търсене на английски език: 83,4 % и 62,9 % съответно от експертите и лингвистите в областта на културното наследство считат това подобрение за ценно.
Освен това създадените с проекта преводачески машини могат да бъдат полезни за доставчиците на данни, които желаят да преведат метаданните от своите колекции на английски език, като подобрят достъпността на своите колекции. Потребителите на платформата за агрегиране на MINT могат да използват пряко съществуващото свързване на API с двигателите, докато институциите в областта на културното наследство с технически експертен опит могат да се възползват от лесно разгръщащите се машини за машинен превод, които са свободно достъпни в хранилището на ELG. Всички експерти в областта на културното наследство, които участваха в проучването, заявиха, че ще обмислят използването на инструментите на Europeana Translate за обогатяване на колекциите на своята организация с автоматични преводи с цел подобряване на откриваемостта.
Europeana Translate Event - как машинният превод и печатът; многоезичният достъп оказват влияние върху културното наследство
Интересувате ли се да научите повече за проекта Europeana Translate, неговата методология и резултати? Бихте ли искали също така да задълбочите познанията си за най-съвременните технологии за машинен превод и как те могат да се прилагат в сектора на културното наследство?
След това се присъединете към нас на събитието Europeana Translate — Как машинният превод и печатът; многоезичният достъп оказват въздействие върху културното наследство. Това е онлайн проява, която се провежда на 13 април 2023 г. от 14:00 до 17:00 ч. централноевропейско лятно часово време. Ще чуете партньорите по проекта да обясняват подробно методологията и резултатите, получени през тези две години работа. Подобни проекти също ще бъдат обсъдени, като винаги ще се отчита критично значението на автоматизирания превод на данни/метаданни за културното наследство с размисъл относно бъдещите стъпки, използваемостта и предизвикателствата на технологиите с ИИ за сектора на културното наследство.
