O společnosti APOLLONIS
V souvislosti s řeckou infrastrukturou pro digitální umění, humanitní vědy a jazykový výzkum a inovace pracuje APOLLONIS, určená pracovní skupina vedená ATHENOU R.C., na identifikaci a podpoře potřeb výzkumných pracovníků při přístupu k nesourodým archivům. Zaměřuje se na archivní materiál z desetiletí čtyřicátých let, bouřlivého období v řeckých dějinách kvůli významným událostem (druhá světová válka, okupace, opozice, osvobození, občanská válka), a shromáždil digitalizované historické archivy od různých poskytovatelů, aby osvětlil různé historické aspekty těchto událostí.
Pracovní skupina má dva hlavní cíle:
- Navrhnout a vytvořit společné úložiště metadat a indexů pro lidi, organizace, místa, časy, témata a události, které lidem umožní vyhledávat obsah v různých archivech
- Definovat digitální kurátorské činnosti a pracovní postupy tak, aby práce na vývoji úložiště mohla být replikována, a podporovat další analýzu a zpracování obohaceného obsahu.
Pracovní skupina, která stále probíhá, zahrnuje členy z ATHENY R.C., koordinátora APOLLONIS, Athénské akademie, FORTH, Institutu komunikačních a počítačových systémů/NTUA a Athénské školy výtvarných umění.
Spojování archivů - proces
Činnost pracovní skupiny je interdisciplinární a různorodá. Od shromažďování zdrojů až po jejich nabízení v nové podobě výzkumným pracovníkům zaznamenáváme naše pracovní postupy. Zahrnují počáteční proces kurátorství digitalizovaných archivů, požití, společnou indexaci dat, generování sémantických grafových reprezentací a nakonec jejich publikaci. Níže uvádíme podrobnosti o procesech, kterými pracovní skupina prošla, aby toho dosáhla.
Poté, co jsme získali zdrojové materiály, zkoumali jsme jejich strukturu a obsah s cílem zmapovat různá archivní metadata na společné metadatové schéma, což umožnilo společné indexování a vytvoření sémantických odkazů v archivním obsahu. Společné schéma metadat je obohacenou verzí datového modelu Europeana (EDM).
Dalším krokem bylo čištění dat, kde byly opraveny „špinavé“ údaje, které zahrnovaly typografické chyby a neplatné nebo nesprávné hodnoty. Soubory dat jsme poté vylepšili identifikací dalších informací a jejich anotací v záznamech - tyto informace se většinou týkají lidí, míst, ozbrojených jednotek, dat a opakujících se témat, a proto jsme využili technik zpracování přirozeného jazyka (NLP). Mezi řešené výzvy patří různé formáty a schémata obsahu, variace slovní zásoby a terminologie, nesrovnalosti ve standardizaci obsahu v rámci stejné sbírky a napříč sbírkami, jakož i pravopisné a typografické chyby, používání řeckých a latinských znaků, zkratky a deklinace.
Výsledné soubory byly vyjádřeny ve formátu XML a agregovány. Tento proces strukturování ponechává prostor pro další obohacení výzkumnými pracovníky, kteří jsou s tímto tématem obeznámeni. Naším hlavním cílem je však podpora komplexních výzkumných dotazů. Za tímto účelem byly údaje nakonec uspořádány propojením různých zdrojů.
Bezprostřední plány pracovní skupiny zahrnují úplné požití a indexaci materiálu z řady archivů za účelem vytvoření odpovídajícího sémantického grafu. Začlenění nových archivů by bylo přirozeným pokračováním naší práce a další spolupráce by byla vítána.
Vylepšené archivy na podporu výzkumu
Tato probíhající práce zlepší stávající uživatelskou zkušenost tím, že usnadní přístup k obsahu novými a inovativními způsoby, kromě řešení otázek uchovávání. Výzkumníci, kteří používají APOLLONIS, nebudou muset prohledávat šest různých archivů nebo čelit problémům souvisejícím s chronologií položek nebo způsoby, jakými byly zaznamenány.
Po dokončení naší práce budou mít výzkumní pracovníci přístup k různým archivům a obohaceným zdrojům současně. Budou také moci využívat pracovní postupy kurátorství a analýzy obsahu vyvinuté v rámci projektu. Projekt proto demonstruje a odráží, jak může být digitální kurátorství přechodným krokem k nabízení užitečných zdrojů výzkumným pracovníkům a jak mohou výzkumní pracovníci spolupracovat s institucemi kulturního dědictví na obohacení svých zdrojů.
Zjistit více
Pracovní skupina APOLLONIS je jedním z projektů v oblasti digitálních zdrojů druhé světové války, které budou projednány na webináři pořádaném Athenou RC dne 10. září 2020 v rámci její spolupráce s Europeanou Research 2018-2020. Seznamte se s programem a zaregistrujte se!
