Здравей, Матео! Можете ли да ни разкажете за проекта импресо?
Матео: Impresso (буквално „това, което е отпечатано“) е съвместен и интердисциплинарен изследователски проект, финансиран от Швейцарската национална научна фондация в рамките на схемата за финансиране на Sinergia. Целта на проекта е да се създаде технологична рамка за извличане, обработване, свързване и проучване на данни от архивите на печатните медии в голям мащаб.
Проектът включва компютърни лингвисти, дигитални хуманисти, дизайнери, историци, библиотекари и архивисти, които се справят с предизвикателството как да обогатят, представят, визуализират и анализират голям корпус от исторически цифровизирани вестници за изследователски цели. Партньори в този проект са DHLAB на EPFL, Люксембургският център за съвременна и цифрова история (C2DH) и Институтът по компютърна лингвистика към Университета в Цюрих. Интердисциплинарният характер на импресо е отразен и в принципа на съвместно проектиране, който прилагаме по време на целия проект. На практика това означава, че данните, които създаваме, и инструментите за работа с цифровизирани вестници, които разработваме, се оформят от постоянен диалог между историци, дизайнери, компютърни лингвисти и цифрови хуманисти.
Що се отнася до концепцията и мотивацията за импресия, преди това DHLAB е участвал в изследователски проект с участието на швейцарския вестник Le Temps, насочен към предоставяне на достъп до два цифровизирани вестника — Journal de Geneve и Gazette de Lausanne (които се сливат през 1998 г., за да станат Le Temps). Резултатите от този проект, както и предизвикателствата, които се появиха, положиха основите на впечатлението. Идеята за създаване на архив от дигитализирани вестници е добре да бъде разширена, за да включи повече източници, както и да погледне отвъд националните граници. Поредица от срещи по време на конференции и семинари между Мод Ерман (DHLAB), Ларс Винеке (C2DH), Мартен Дюринг (C2DH) и Симон Клематид (UZH) спомогнаха за укрепването и формулирането на тази идея в успешно предложение за финансиране.
Как се включихте в проекта?
Колегата ми и координатор на проекта Мод Ерман ме помоли да се присъединя към проекта през лятото на 2017 г., когато неочаквана промяна в екипа на проекта отвори възможността да има друг изследовател след докторантура, който да я подкрепи в задачите, които DHLAB ръководи. По това време работех по Linked Books, друг финансиран от ОЯГ проект за извличане на цитати от научна литература за историята на Венеция. Работата по поименното обработване на субекти и поясненията, които извършваме в импресии, е в основата на моите изследователски интереси. Налице е и приемственост със свързаните книги и предишните ми изследвания върху извличането на информация от широкомащабни цифрови архиви в хуманитарните науки, като цитатите (и по-общо назованите субекти) са една от основните ми области на интерес.
Какво е значението на наборите от данни от вестници за историческите изследвания?
Историческите вестници са безценни първични източници за хуманитарните учени като цяло, а не само за историците. Всъщност те съдържат и съхраняват един вид вкаменена следа от нашите настоящи и минали общества. Те записват всякакви събития, от военни декларации до танци в събота вечер в провинцията и документират много аспекти на ежедневния живот и култура. Те съдържат изключително богата и гъста информация, която също е непрекъсната, тъй като в много случаи тези вестници работят от дълго време и се публикуват много редовно.
Решаващо предизвикателство, на което се обръщаме с импресии, е как да разработим инструмент, който подпомага изследователите да работят с големи архиви от цифровизирани вестници. Инструментът интегрира технологии за обработка на естествен език (напр. назована обработка на субекти или моделиране на теми), за да улови семантиката на съдържанието на вестниците, за да направи тези (подобрени) източници използваеми за научни изследвания. Важен принцип, който следваме при проектирането му, е прозрачността, което означава, че се стремим да направим ясни и видими за потребителите всички аспекти на данните - или на обработката, която извършваме на данните - които често рискуват да останат скрити в интерфейсите за търсене. Информационните аспекти, които искаме да направим по-прозрачни, включват например качеството на OCR, както и дупки в данните поради повредени цифрови архиви.
Как се използват инструментите за импресии?
Въпреки факта, че проектът за импресо все още е в процес на създаване, неговият корпус и инструменти се използват активно както за научни изследвания, така и за преподаване.
Що се отнася до научните изследвания, д-р Estelle Bunout (C2DH) — един от (цифровите) историци в нашия проект — работи по казус, озаглавен „Съпротива срещу Европа“, който включва анализ на дебатите относно европейската идея в цифровизирани вестници от Люксембург, Швейцария и извън нея, с цел идентифициране на напрежението около европейската идея от края на 19-ти век до 1945 г. И изследователи от нашите асоциирани партньори, асоциацията Infoclio и Историческия отдел на Университета в Лозана, допринасят за размисъла за това как да се прилагат инструменти за импресии към исторически изследователски въпроси в контекста на конкретни случаи на употреба.
И накрая, публикувахме покана за асоциирани изследователи през първата година от проекта, за да разширим кръга от историци, свързани с проекта. В резултат на това около 20 историци от Бенелюкс, Франция, Германия и Швейцария изразиха интерес както към инструментите, така и към колекциите, събрани от импресиите, и се включиха в проекта. Тяхното асоцииране включва не само използването на резултатите от проекта, но и редовен диалог с екипа по импресо чрез семинари и заключителна конференция, чиято цел е да се събере обратна информация относно използването от тяхна страна на инструменти за импресо и техните изследвания, както и да се обсъдят епистемологични въпроси, повдигнати от цифровизираните вестници.
Разнообразието от теми и методи на асоциираните изследователи отразява привлекателността на швейцарските и люксембургските (цифровизирани) вестници като исторически източници. Те включват прозопографски изследвания на експерти и жени военни кореспонденти, както и на „история на мислите“, като възхода на либералния интернационализъм в края на 19-ти век или банковата история. Всяка от тези изследователски теми изисква конкретно използване на вестниците, конкретен начин за тяхното запитване, който допринася за подхранване на концепцията за взаимодействието с колекцията от импресии. Разнообразните приложения обаче са достъпни за всички изследователи в един и същ интерфейс, в опит да се предложи диверсификация на тези взаимодействия и да се обогати всеки вид изследователска практика, включително и преподавателски практики, в духа на щедрите интерфейси.
Що се отнася до преподаването, Мартин Гранджан и Сандра Бот използват част от импресо корпуса при преподаването на курс по цифрови хуманитарни науки/цифрова история, част от програмата на EPFL за социални и хуманитарни науки. Курсът се фокусира върху това как големите събития на 20-ти век бяха отразени в пресата; дигиталните архиви на вестниците предоставят на студентите богат източник на материали, върху които могат да бъдат тествани редица цифрови методи и инструменти. Същият курс е планиран за следващата година и ще се основава на интерфейса и инструментите за импресо, като по този начин ни позволява да тестваме силата и слабостите на тези инструменти конкретно в контекста на преподаването (а не на научните изследвания).
В рамките на Ranke2 — платформата, подготвена в C2DH, предлагаща учебни материали за това как да се практикува критика на цифрови източници — проектът Impresso допринася за изготвянето на модул, посветен на използването на цифровизирани вестници. Този модул събира научените уроци с подготовката на прозрачен интерфейс, адаптиран към бакалавърското ниво и преподаването в средните училища, като внася най-новите тенденции в изследователските практики в класните стаи.
Докъде сте стигнали в проекта - и каква е следващата стъпка?
Бета версията на импресо интерфейса беше пусната през май 2019 г. Засега това е частна версия, насочена най-вече към получаване на обратна информация относно дизайна на интерфейса и функционалностите от свързаните с нас историци. По отношение на данните интерфейсът дава достъп до 22 швейцарски вестника за общо почти 3,2 милиона страници, 360 000 броя вестници и над 26 милиона елемента съдържание (напр. статии, реклами и др.), най-вече на френски и немски език.
Що се отнася до функционалностите на интерфейса, бета версията съдържа всички основни функции, които очаквате от интерфейса на вестника: търсене, търсене на аспекти и зрител, който ви позволява да четете и изследвате статии от вестници. Освен това той предоставя някои по-усъвършенствани функции, като например възможността за търсене на наименувани обекти, за използване на тематични модели като филтри за стесняване на резултатите от търсенето и възможността потребителят да създава и запазва колекции от елементи. Новите функционалности, които бяха добавени в последното издание, включват първата версия на визуалното търсене (способност за филтриране на всички налични изображения, по дата и вестник) и масовото изтегляне на метаданни.
Какво ще се случи по-нататък? През месец юли ще пуснем публичната версия на интерфейса с нови функции, както и нови източници на вестници (най-вече цифровизираните материали на Националната библиотека на Люксембург). Най-добрият начин да проследите проекта, докато той продължава да се развива, е да се присъедините към списъка с адреси за импресии — и към свързаната с нас група от историци — или да ни последвате в Twitter, тъй като през следващите месеци ще има няколко вълнуващи нови развития!
