Dobrý den, Matteo! Můžete nám říct něco o projektu impresso?
Matteo: Impresso (doslova „co bylo vytištěno“) je společný a interdisciplinární výzkumný projekt financovaný Švýcarskou národní vědeckou nadací v rámci programu financování Sinergia. Cílem projektu je vytvořit technologický rámec pro extrakci, zpracování, propojení a zkoumání dat z archivů tištěných médií ve velkém měřítku.
Projekt zahrnuje počítačové lingvisty, digitální humanisty, designéry, historiky, knihovníky a archiváře, kteří řeší výzvu, jak obohatit, reprezentovat, vizualizovat a analyzovat velký korpus historických digitalizovaných novin pro výzkumné účely. Partnery tohoto projektu jsou DHLAB agentury EPFL, Lucemburské centrum pro soudobé a digitální dějiny (C2DH) a Ústav výpočetní lingvistiky na univerzitě v Curychu. Interdisciplinární charakter impressa se odráží i v principu co-designu, který aplikujeme v celém projektu. V praxi to znamená, že data, která vytváříme, a nástroje pro práci s digitalizovanými novinami, které vyvíjíme, jsou utvářeny neustálým dialogem mezi historiky, designéry, počítačovými lingvisty a digitálními humanisty.
Pokud jde o koncepci a motivaci společnosti impresso, DHLAB byla předtím zapojena do výzkumného projektu zahrnujícího švýcarské noviny Le Temps, jehož cílem bylo zpřístupnit dva digitalizované noviny – Journal de Geneve a Gazette de Lausanne (které se v roce 1998 sloučily a staly se Le Temps). Výsledky tohoto projektu, stejně jako výzvy, které se objevily, položily základy pro impresso. Myšlenka vytvoření archivu digitalizovaných novin se dobře propůjčila k rozšíření tak, aby zahrnovala více zdrojů a dívala se za hranice jednotlivých států. Řada setkání na konferencích a workshopech mezi Maud Ehrmannovou (DHLAB), Larsem Wienekem (C2DH), Martenem Düringem (C2DH) a Simonem Clematidem (UZH) pomohla tuto myšlenku posílit a formulovat do podoby úspěšného návrhu financování.
Jak jste se do projektu zapojili?
Moje kolegyně a projektová koordinátorka Maud Ehrmann mě požádala, abych se k projektu připojila v létě 2017, kdy nečekaná změna v projektovém týmu otevřela možnost mít dalšího postdoktorandského výzkumného pracovníka, který by ji podpořil v úkolech, které vedl DHLAB. V té době jsem pracoval na projektu Linked Books, dalším projektu financovaném SNF, který se zabývá dolováním citací vědecké literatury o historii Benátek. Práce na zpracování a rozlišování pojmenovaných entit, kterou provádíme v impressu, je jádrem mých výzkumných zájmů. Existuje také kontinuita s Linked Books a mým předchozím výzkumem v oblasti extrakce informací z rozsáhlých digitálních archivů v humanitních oborech, přičemž citace (a obecněji pojmenované subjekty) jsou jednou z mých hlavních oblastí zájmu.
Jaký je význam datových sad novin pro historický výzkum?
Historické noviny jsou neocenitelným primárním zdrojem pro humanitní vědce obecně, nejen pro historiky. Ve skutečnosti obsahují a zachovávají jakousi zkamenělou stopu našich současných a minulých společností. Zaznamenávají všechny druhy událostí, od válečných prohlášení až po sobotní večerní taneční plesy na venkově, a dokumentují mnoho aspektů každodenního života a kultury. Obsahují extrémně bohaté a husté informace, které jsou také kontinuální, protože v mnoha případech tyto noviny běží již dlouhou dobu a vydávají se velmi pravidelně.
Zásadní výzvou, kterou v impressu řešíme, je, jak navrhnout nástroj, který podpoří výzkumné pracovníky při práci s velkými archivy digitalizovaných novin. Nástroj integruje technologie zpracování přirozeného jazyka (např. zpracování pojmenovaných entit nebo modelování témat) s cílem zachytit sémantiku obsahu novin, aby byly tyto (vylepšené) zdroje použitelné pro výzkum. Důležitým principem, kterým se při návrhu řídíme, je transparentnost, což znamená, že se snažíme uživatelům explicitně a zviditelnit všechny aspekty dat - nebo zpracování, které provádíme na datech - které často riskují, že zůstanou skryty ve vyhledávacích rozhraních. K informačním aspektům, které chceme učinit transparentnějšími, patří například kvalita OCR, jakož i díry v datech způsobené poškozenými digitálními archivy.
Jak se používají impresso nástroje?
Navzdory skutečnosti, že projekt impresso je stále v přípravě, jeho korpus a nástroje jsou aktivně využívány jak pro výzkum, tak pro výuku.
Na straně výzkumu pracuje Dr. Estelle Bunout (C2DH) - jeden z (digitálních) historiků v našem projektu - na případové studii nazvané „Resistance to Europe“, která zahrnuje analýzu diskusí o evropské myšlence v digitalizovaných novinách z Lucemburska, Švýcarska a dalších zemí s cílem identifikovat napětí kolem evropské myšlenky od konce 19. století do roku 1945. Výzkumní pracovníci z našich přidružených partnerů, sdružení Infoclio a oddělení historie Univerzity v Lausanne, přispívají k úvahám o tom, jak aplikovat nástroje impresso na historické výzkumné otázky v souvislosti s konkrétními případy použití.
Nakonec jsme během prvního roku projektu vydali výzvu pro přidružené výzkumné pracovníky, abychom rozšířili okruh historiků přidružených k projektu. Výsledkem je, že asi 20 historiků především z Beneluxu, Francie, Německa a Švýcarska vyjádřilo zájem o nástroje a sbírky, které shromáždilo impresso, a zapojili se do projektu. Jejich sdružení zahrnuje nejen využití výstupů projektu, ale také pravidelný dialog s týmem impresso prostřednictvím workshopů a závěrečné konference s cílem shromáždit zpětnou vazbu o jejich používání nástrojů impresso a jejich výzkumu a diskutovat o epistemologických otázkách vznesených digitalizovanými novinami.
Rozmanitost témat a metod přidružených výzkumných pracovníků odráží přitažlivost švýcarských a lucemburských (digitalizovaných) novin jako historických zdrojů. Patří mezi ně prosopografický výzkum odborníků a válečných korespondentek, jakož i „historie myšlenek“, jako je vzestup liberálního internacionalismu na konci 19. století nebo bankovní historie. Každé z těchto výzkumných témat vyžaduje zvláštní použití novin, zvláštní způsob, jak je zpochybnit, což přispívá ke koncepci interakce s kolekcí impresso. Různorodá použití jsou však k dispozici pro všechny výzkumné pracovníky ve stejném rozhraní, ve snaze nabídnout diverzifikaci těchto interakcí a obohatit každý typ výzkumné praxe, včetně výukových postupů, v duchu velkorysých rozhraní.
Pokud jde o výuku, Martin Grandjean a Sandra Bottová využívají část korpusu impresso při výuce kurzu Digital Humanities/Digital History, který je součástí programu EPFL v oblasti sociálních a humanitních věd. Kurz se zaměřuje na to, jak byly velké události 20. století pokryty v tisku; digitální archivy novin poskytují studentům bohatý zdroj materiálů, na kterých lze testovat řadu digitálních metod a nástrojů. Stejný kurz je plánován na příští rok a bude založen na rozhraní a nástrojích impresso, což nám umožní otestovat sílu a slabiny těchto nástrojů konkrétně v kontextu výuky (spíše než výzkumu).
V rámci Ranke2, platformy připravené na C2DH, která nabízí výukové materiály o tom, jak praktikovat kritiku digitálních zdrojů, přispívá projekt impresso k přípravě modulu věnovaného používání digitalizovaných novin. Tento modul sbírá získané poznatky s přípravou transparentní rozhraní, přizpůsobené bakalářské úrovni a středoškolské výuky, přináší nejnovější trendy výzkumných postupů do učeben.
Jak jste na tom s projektem - a jaký je další krok?
Beta verze rozhraní impresso byla vydána v květnu 2019. Prozatím se jedná o soukromou verzi, jejímž hlavním cílem je získat zpětnou vazbu ohledně návrhu rozhraní a funkcí od našich přidružených historiků. Pokud jde o data, rozhraní umožňuje přístup k 22 švýcarským novinám s celkovým počtem téměř 3,2 milionu stran, 360 000 vydání novin a více než 26 milionů obsahových položek (např. články, reklamy atd.), většinou ve francouzštině a němčině.
Pokud jde o funkce rozhraní, beta verze obsahuje všechny základní funkce, které očekáváte od novinového rozhraní: vyhledávání, vyhledávání faset a prohlížeč, který vám umožní číst a zkoumat novinové články. Navíc poskytuje některé pokročilejší funkce, jako je možnost vyhledávat pojmenované entity, používat tematické modely jako filtry pro zúžení výsledků vyhledávání a možnost pro uživatele vytvářet a ukládat sbírky položek. Mezi nové funkce, které byly přidány v nejnovější verzi, patří první verze vizuálního vyhledávání (možnost filtrovat všechny dostupné obrázky podle data a novin) a hromadné stahování metadat.
Co bude dál? V červenci zveřejníme veřejnou verzi rozhraní s novými funkcemi a novými novinovými zdroji (zejména digitalizovanými materiály Lucemburské národní knihovny). Nejlepším způsobem, jak projekt sledovat v jeho dalším vývoji, je připojit se k e-mailové konferenci impresso – a naší přidružené skupině historiků – nebo nás sledovat na Twitteru, neboť v nadcházejících měsících dojde k několika vzrušujícím novinkám!
