Uruchomiona w 2016 r. platforma Transcribathon została rozwinięta w ramach dwóch projektów Generic Services: Enrich Europeana (2018–2020) i Enrich Europeana Plus (2021–2023). Platforma umożliwia wolontariuszom transkrypcję odręcznych tekstów historycznych w różnych językach i z różnych okresów historycznych, używając tylko komputera. Od czasu rozpoczęcia projektów wolontariusze przepisali ponad 372 000 dokumentów i przekształcili je w cyfrowe pliki tekstowe, co pomogło poszerzyć i wzbogacić ogromne zbiory cyfrowego dziedzictwa kulturowego Europeany.
W 2021 r. w ramach projektu Enrich Europeana Plus zaczęto aktualizować platformę Transcribathon o zaawansowaną technologię rozpoznawania pisma ręcznego, która wykorzystuje sztuczną inteligencję do zapewnienia automatycznych transkrypcji, które mogą być następnie sprawdzane przez wolontariuszy. Jednym z największych dostawców takiej technologii jest READ-COOP, Europejskie Stowarzyszenie Spółdzielcze, które zarządza popularnym oprogramowaniem Transkribus. Enrich Europeana Plus spędził kilka miesięcy pracując z READ-COOP i wprowadzając swoją technologię do platformy Transcribathon.
Powiązanie Transcribathon z API „metagrapho”
Opracowane w ramach finansowanego przez UE projektu prowadzonego przez Uniwersytet w Innsbrucku oprogramowanie Transkribus umożliwia automatyczną transkrypcję historycznych odręcznych dokumentów na masową skalę. Technologia ta wykorzystuje sztuczną inteligencję do „uczenia się” czytania określonych rodzajów pisma ręcznego, a następnie wykorzystuje tę wiedzę do tworzenia automatycznych transkrypcji tekstów. To znacznie przyspiesza proces transkrypcji: transkrybent nie musi już spędzać godzin na pisaniu transkrypcji od zera, ponieważ może zamiast tego skorygować automatyczną transkrypcję.
Technologia rozpoznawania pisma ręcznego, taka jak Transkribus, jest szczególnie idealna do projektów nauki obywatelskiej. Im łatwiej jest przepisać te dokumenty, tym więcej dokumentów mogą przetworzyć wolontariusze w określonych ramach czasowych i tym szybciej można wzbogacić stronę internetową Europeany. Zespół Transcribathon był więc chętny do wdrożenia tej technologii na platformie.
W tym celu postanowili wykorzystać metagrapho API READ-COOP, aby umożliwić Transcribathon dostęp do technologii Transkribus. API to oprogramowanie, które działa jako komunikator między dwiema różnymi platformami. Ktoś żąda informacji na jednej platformie, a platforma wysyła to żądanie do API innej platformy. Gdy ta druga platforma otrzyma odpowiedź na żądanie, API przenosi je z powrotem na pierwszą platformę, a osoba otrzymuje potrzebne informacje.
Platforma Transcribathon wykorzystuje metagrapho API właśnie w ten sposób. Kiedy wolontariusz chce uzyskać automatyczną transkrypcję tekstu, żąda tego na platformie Transcribathon. Transcribathon następnie wysyła to żądanie do interfejsu API metagrapho, który wykorzystuje technologię rozpoznawania pisma ręcznego do przetwarzania obrazu i generowania automatycznej transkrypcji. Wreszcie, po zakończeniu przetwarzania, platforma Transcribathon może uzyskać dostęp do transkrypcji i pokazać ją wolontariuszowi, ponownie za pośrednictwem metagrapho API.
Metagrapho API zapewnia nie tylko transkrypcję, ale także współrzędne każdej linii lub nawet słowa znalezionego na obrazie - coś, co nie było możliwe w starej wersji Transcribathon. Funkcja ta umożliwia następnie wykorzystanie transkrypcji do dalszych zastosowań, takich jak podświetlanie pasujących słów kluczowych w tekście podczas wyszukiwania pełnotekstowego.
Ulepszony edytor transkrypcji
Aktualizacja technologii Transcribathon oznaczała, że edytor transkrypcji - część, której wolontariusz używa do wprowadzania swoich transkrypcji - nie był już w stanie poradzić sobie z bogatszym formatem danych, który otrzymywał z metagrapho API. Dlatego READ-COOP zbudował niestandardowy edytor transkrypcji dla Transcribathon. Dzięki temu ludzie mogą kliknąć linię transkrypcji i zobaczyć odpowiednią linię na obrazie tekstu.
Aby przyspieszyć proces, READ-COOP wziął istniejący edytor w oprogramowaniu Transkribus, zmodyfikował go tak, aby pasował do wymagań Transcribathon i przekształcił go w widżet. Widżet został następnie po prostu wstawiony do platformy Transcribathon, umożliwiając użytkownikom dostęp i edycję transkrypcji generowanych przez API metagrapho. Korzystanie z istniejącego edytora Transkribus i po prostu jego modyfikacja zaoszczędziło również cenny czas i koszty rozwoju.
Siła współpracy
Te aktualizacje technologiczne przenoszą Transcribathon na wyższy poziom. Zamiast tworzyć od podstaw czasochłonne transkrypcje, wolontariusze mogą teraz po prostu korygować automatycznie generowane transkrypcje w nowym edytorze transkrypcji, pomagając im w przetwarzaniu wielu innych dokumentów podczas biegu.
READ-COOP obecnie trenuje odręczne rozpoznawanie tekstu modele AI na podstawie materiału już transkrybowanego lub materiału, który wkrótce zostanie transkrybowany, w Transcribathon. Im lepiej model AI jest dostosowany do materiału, tym dokładniejsze będą automatyczne transkrypcje.
Na przykład jeden z nadchodzących biegów Transcribathon Run będzie zawierał skany kart żywnościowych z archiwów państwowych w Zagrzebiu, które były wykorzystywane podczas II wojny światowej (od 1941 r. 1945 r.) jako forma racjonowania żywności i innych zasobów. Karty zawierają wskaźniki demograficzne i społeczno-ekonomiczne dla osób fizycznych lub gospodarstw domowych, takie jak tytuły, miejsca pracy, a zatem są bogatym źródłem materiałów badawczych.
W ramach przygotowań do tego biegu READ-COOP zorganizował webinarium z pracownikami archiwum, aby pokazać im, jak przygotować dane szkoleniowe. Te dane treningowe zostaną następnie wykorzystane do przeszkolenia modelu pisma ręcznego lub „nauczenia” silnika, jak czytać tego typu dokumenty, tak aby mógł on zapewnić dokładniejsze transkrypcje podczas biegu. Dzięki temu, w połączeniu z umiejętnościami wolontariuszy w zakresie korekty, archiwum w Zagrzebiu będzie mogło zdigitalizować większą liczbę dokumentów niż kiedykolwiek wcześniej.
Dowiedz się więcej
W tym filmie wideo można zapoznać się z webinarium na temat przygotowywania danych szkoleniowych. Znajdziesz integrację edytora do automatycznego ręcznego rozpoznawania tekstu na platformie Transcribathon i możesz sprawdzić pierwsze wyniki z dokumentów dublińskich.
Ten post został napisany przez Fiona Park, Content Manager READ-COOP SCE i Philip Kahle, Software Developer, READ COOP.
