Стартирала през 2016 г., платформата Transcribathon беше доразвита от два проекта за общи услуги: Enrich Europeana (2018—2020 г.) и Enrich Europeana Plus (2021—2023 г.). Платформата позволява на доброволците да транскрибират ръкописни исторически текстове на различни езици и от различни исторически периоди, като използват само компютъра си. От началото на проектите над 372 000 документа са били транскрибирани от доброволци и превърнати в цифрови текстови файлове, което е спомогнало за разширяването и обогатяването на огромните колекции на Europeana от цифрови предмети на културното наследство.
През 2021 г. проектът Enrich Europeana Plus започна да актуализира платформата Transcribathon с усъвършенствана технология за разпознаване на ръкописен текст, която използва изкуствен интелект за осигуряване на автоматични транскрипции, които след това могат да бъдат проверявани от доброволци. Един от най-големите доставчици на такива технологии е READ-COOP, европейско кооперативно дружество, което управлява популярния софтуер Transkribus. Enrich Europeana Plus прекара няколко месеца в работа с READ-COOP и внедрява технологията си в платформата Transcribathon.
Свързване на Transcribathon с API „metagrapho“
Разработен като част от финансиран от ЕС проект, ръководен от Университета в Инсбрук, софтуерът Transkribus позволява ръчно написани исторически документи да бъдат автоматично транскрибирани в масов мащаб. Технологията използва ИИ, за да „научи“ как да чете конкретни видове почерк и след това прилага тези знания, за да създава автоматични транскрипции на текстове. Това драстично ускорява процеса на транскрипция: транскрибиращият вече не трябва да прекарва часове в писане на транскрипция от нулата, тъй като вместо това може да коригира автоматичната транскрипция.
Технологията за разпознаване на ръкописен текст като Transkribus е особено идеална за проекти на гражданската наука. Колкото по-лесно се транскрибират тези документи, толкова повече документи могат да обработват доброволците в определен срок и толкова по-бързо може да се обогати уебсайтът на Europeana. Затова екипът на Transcribathon имаше желание да внедри тази технология в платформата.
За тази цел те решават да използват метаграфския API на READ-COOP, за да позволят на Transcribathon достъп до технологията Transkribus. API е софтуер, който действа като месинджър между две различни платформи. Някой иска информация на една платформа, а платформата изпраща това искане до API на друга платформа. След като втората платформа получи отговор на искането, API я връща към първата платформа и лицето получава информацията, от която се нуждае.
Платформата Transcribathon използва метаграфския API точно по този начин. Когато доброволец иска да получи автоматична транскрипция на текст, те искат това на платформата Transcribathon. След това Transcribathon изпраща тази заявка до API на метаграфа, който използва технология за разпознаване на ръкописен текст, за да обработи изображението и да генерира автоматична транскрипция. Накрая, след като обработката приключи, платформата Transcribathon може да получи достъп до транскрипцията и да я покаже на доброволеца, отново чрез метаграфския API.
Метаграфското API не само осигурява транскрипцията, но и координатите за всяка линия или дори дума, намерена в изображението - нещо, което не беше възможно в старата версия на Transcribathon. Тази функция дава възможност след това да се използват транскрипциите за допълнителни приложения, като например подчертаване на съвпадащи ключови думи в текста по време на пълнотекстово търсене.
Подобрен редактор за транскрипция
Актуализирането на технологията зад Transcribathon означава, че редакторът на транскрипции - частта, която доброволец използва, за да въведе своите транскрипции - вече не е в състояние да се справи с по-богатия формат на данни, който получава обратно от метаграфския API. Ето защо, READ-COOP изгради персонализиран редактор за транскрипция за Transcribathon. Това позволява на хората да кликнат върху ред от транскрипцията и да видят съответния ред в изображението на текста.
За да ускори процеса, READ-COOP взе съществуващия редактор в софтуера Transkribus, модифицира го, за да отговаря на изискванията на Transcribathon и го превърна в джаджа. След това джаджата просто е вмъкната в платформата Transcribathon, което дава възможност на потребителите да имат достъп и да редактират транскрипциите, генерирани от API-то на метаграфа. Използването на съществуващия редактор Transkribus и простото му модифициране също спести ценно време и разходи за разработка.
Силата на сътрудничеството
Тези технологични актуализации извеждат Transcribathon на следващото ниво. Вместо да създават отнемащи време транскрипции от нулата, доброволците вече могат просто да коригират автоматично генерираните транскрипции в новия редактор на транскрипции, като им помагат да обработват много повече документи по време на изпълнение.
READ-COOP понастоящем обучава моделите на ИИ за разпознаване на ръкописен текст въз основа на материал, който вече е транскрибиран, или за материал, който скоро ще бъде транскрибиран, в Transcribathon. Колкото по-добре моделът на ИИ е адаптиран към материала на фокус, толкова по-точни ще бъдат автоматичните транскрипции.
Например, един предстоящ Transcribathon Run ще включва сканиране на дажбени карти от Държавния архив в Загреб, които са били използвани по време на Втората световна война (от 1941 1945 г.) като форма на дажба на храна и други ресурси. Картите съдържат демографски и социално-икономически показатели за физически лица и / или домакинства като заглавия, работни места и следователно са богат източник на изследователски материали.
Като подготовка за това бягане READ-COOP проведе уебинар със служители на архива, за да им покаже как да подготвят данни за обучение. След това тези данни от обучението ще бъдат използвани за обучение на почерк модел или „обучение“ на двигателя как да чете документи от този тип, така че да може да осигури по-точни транскрипции по време на пробега. Това, в съчетание с уменията за коректура на доброволците, следва да даде възможност на архива на Загреб да цифровизира по-голям брой документи от всякога.
Научете повече
В това видео можете да прегледате уебинара за това как да подготвите данните за обучението. Ще намерите интегрирането на редактора за автоматично ръчно разпознаване на текст на платформата Transcribathon и можете да проверите първите резултати от дъблинските документи.
Тази публикация е написана от Fiona Park, Content Manager READ-COOP SCE, и Philip Kahle, Software Developer, READ COOP.
