Изминаване на „eXXtra“ миля: нови технологии за обогатяване на данните за културното наследство

Публикувано на 27 юни 2022 г. от

Alexander Raginsky (Pangeanic)

Vassilis Tzouvaras (National Technical University of Athens)

Възможност за автоматичен превод за обогатяване

Инструментът API, разработен от партньора по проекта Pangeanic, открива езика, използван в метаданните на Europeana, и позволява машинен превод. Наречен „Служба за автоматичен превод на метаданни за наследството“ (HM ATS), този инструмент е част от набор от инструменти за семантично обогатяване, разработени от Europeana XX.

За да създаде инструмента, Pangeanic изгради 10 невронни машини за машинен превод (превод на италиански, немски, чешки, гръцки, френски, шведски, каталонски, холандски, полски и испански на английски). Те са използвали данни за обучение от собствените хранилища на Pangeanic и отворени данни в интернет. Pangeanic също така е наела преводачи, които да превеждат ограничен брой записи от хранилищата на Europeana, за да разполага със специфични за Europeana данни за обучение на няколко езика.

Инструментът е използван за превод и обогатяване на приблизително два и половина милиона записа по време на проекта. Pangeanic успешно разшири и прецизира инструмента, за да отговаря на изискванията за производителност на такъв огромен обем данни. Използвайте API кода сами.

За да оценят и валидират качеството на машинния превод, партньорите създадоха и система за валидиране на превода (въз основа на LabelStudio). Специалистите в областта на културното наследство и носителите на съответните езици са валидирали повече от 2700 превода чрез тази система. Обратната връзка беше изключително положителна, потвърждавайки високото качество на невронния машинен превод и че той работи добре в областта на цифровото културно наследство.

Валидираните преводи ще бъдат използвани за по-нататъшно подобряване на машините за машинен превод в проекта Europeana Translate, в който участва и Pangeanic. Целта на този проект е да се подпомогне напредъкът на Europeana в изпълнението на многоезичната ѝ стратегия чрез предоставяне на преводи на метаданни, които ще дадат възможност за по-добро търсене и показване на колекциите ѝ на родните им езици и на езиците на потребителите.

Обогатяване на наборите от данни

SAGE, уеб-базиран инструмент за производство, обогатяване, публикуване, достъп и управление на RDF набори от данни, е разработен от Националния технически университет в Атина (NTUA) за Europeana XX. RDF (resource description framework) е език, използван за представяне на съдържанието на набор от данни. RDF данните могат да бъдат директно импортирани или генерирани от различни източници и формати на данни, организирани в набори от данни и обогатени с помощта на анотатори. След това тези обогатявания могат да бъдат валидирани ръчно. Всички набори от данни, включително всички анотации, могат да бъдат публикувани в RDF магазини, индексирани и достъпни чрез API повиквания.

Благодарение на SAGE избрани части от публикуваните набори от данни вече могат да бъдат анотирани и обогатени чрез външни API услуги, като например инструменти за свързване на данни със съответните Wikidata, DBPedia, Geonames и други ресурси или инструменти, които откриват появата на термини от речника в данните. След като бъдат направени обогатявания в SAGE, те се валидират ръчно чрез система, която позволява групово валидиране чрез групиране на текст и сортиране на текстова честота, възлагане на задачи за валидиране на множество потребители и внимателно наблюдение на цялостния процес на валидиране.

Инструментът SAGE е използван и в проекта Pagode за автоматично обогатяване на повече от 20 000 записа. Той ще се използва и в проекта CRAFTED за анализ на полетата за метаданни и текста, извлечен от инструментите за анализ на съдържанието на изкуствения интелект, за да се установи и премахне несигурността от посочените субекти. Крайната цел е да се обогатят повече от 100 000 записа и да се даде възможност за валидиране на потребителите и оценка на автоматично извлечените субекти.

Научете повече

Можете да разгледате всички инструменти, разработени в рамките на проекта Europeana XX (и други проекти за общи услуги) на страницата за услуги и инструменти на Europeana.

Изминаване на „eXXtra“ миля: нови технологии за обогатяване на данните за културното наследство

Споделяне

Възможност за автоматичен превод за обогатяване

Обогатяване на наборите от данни

Научете повече