Cześć Matteo! Czy możesz nam opowiedzieć o projekcie impresso?
Matteo: Impresso (dosłownie „co zostało wydrukowane”) jest wspólnym i interdyscyplinarnym projektem badawczym finansowanym przez Szwajcarską Narodową Fundację Nauki w ramach programu finansowania Sinergia. Celem projektu jest stworzenie ram technologicznych do ekstrakcji, przetwarzania, łączenia i eksploracji danych z archiwów mediów drukowanych na dużą skalę.
Projekt angażuje lingwistów komputerowych, humanistów cyfrowych, projektantów, historyków, bibliotekarzy i archiwistów, którzy podejmują wyzwanie, jak wzbogacić, reprezentować, wizualizować i analizować duży zbiór historycznych zdigitalizowanych gazet do celów badawczych. Partnerami tego projektu są DHLAB EPFL, Luksemburskie Centrum Historii Współczesnej i Cyfrowej (C2DH) oraz Instytut Lingwistyki Obliczeniowej Uniwersytetu w Zurychu. Interdyscyplinarny charakter impresso znajduje odzwierciedlenie również w zasadzie współprojektowania, którą stosujemy w całym projekcie. W praktyce oznacza to, że tworzone przez nas dane i narzędzia do pracy ze zdigitalizowanymi gazetami, które opracowujemy, są kształtowane przez stały dialog między historykami, projektantami, lingwistami obliczeniowymi i cyfrowymi humanistami.
Jeśli chodzi o koncepcję i motywację impreso, DHLAB był wcześniej zaangażowany w projekt badawczy z udziałem szwajcarskiej gazety Le Temps, mający na celu zapewnienie dostępu do dwóch zdigitalizowanych gazet – Journal de Geneve i Gazette de Lausanne (które połączyły się w 1998 r., aby stać się Le Temps). Rezultaty tego projektu, a także wyzwania, które się pojawiły, położyły podwaliny pod impresję. Pomysł utworzenia archiwum zdigitalizowanych gazet dobrze się rozwinął, aby uwzględnić więcej źródeł, a także spojrzeć poza granice państwowe. Szereg spotkań na konferencjach i warsztatach między Maud Ehrmann (DHLAB), Larsem Wieneke (C2DH), Martenem Düringiem (C2DH) i Simonem Clematide (UZH) przyczynił się do wzmocnienia i przekształcenia tego pomysłu w udaną propozycję finansowania.
W jaki sposób zaangażowałeś się w projekt?
Moja koleżanka i koordynatorka projektu Maud Ehrmann poprosiła mnie o przyłączenie się do projektu latem 2017 r., Kiedy nieoczekiwana zmiana w zespole projektowym otworzyła możliwość zatrudnienia kolejnego badacza post-doc, który wspierałby ją w zadaniach prowadzonych przez DHLAB. W tym czasie pracowałem nad Linked Books, innym finansowanym przez SNF projektem dotyczącym wydobywania cytatów z literatury naukowej na temat historii Wenecji. Praca nad przetwarzaniem i ujednoznacznieniem nazwy podmiotu, którą wykonujemy w Impresso, leży u podstaw moich zainteresowań badawczych. Istnieje również ciągłość z Linked Books i moimi wcześniejszymi badaniami nad ekstrakcją informacji z wielkoskalowych archiwów cyfrowych w naukach humanistycznych, a cytaty (i bardziej ogólnie nazwane podmioty) są jednym z moich głównych obszarów zainteresowania.
Jakie jest znaczenie zbiorów danych prasowych dla badań historycznych?
Historyczne gazety są nieocenionym podstawowym źródłem dla humanistów w ogóle, nie tylko historyków. W rzeczywistości zawierają i zachowują rodzaj skamieniałego śladu naszych obecnych i przeszłych społeczeństw. Nagrywają wszelkiego rodzaju wydarzenia, od deklaracji wojennych po sobotnie wieczorne bale taneczne na wsi i dokumentują wiele aspektów codziennego życia i kultury. Zawierają niezwykle bogate i gęste informacje, które są również ciągłe, ponieważ w wielu przypadkach gazety te działają od dłuższego czasu i są publikowane bardzo regularnie.
Kluczowym wyzwaniem, którym zajmujemy się w Impresso, jest opracowanie narzędzia wspierającego naukowców w pracy z dużymi archiwami zdigitalizowanych gazet. Narzędzie integruje technologie przetwarzania języka naturalnego (np. przetwarzanie nazw podmiotów lub modelowanie tematyczne) w celu uchwycenia semantyki treści gazet, aby umożliwić wykorzystanie tych (ulepszonych) źródeł do badań. Ważną zasadą, której przestrzegamy w jego projektowaniu, jest przejrzystość, co oznacza, że staramy się, aby wszystkie aspekty danych - lub przetwarzania, które wykonujemy na danych - były wyraźne i widoczne dla użytkowników, które często mogą pozostać ukryte w interfejsach wyszukiwania. Aspekty informacyjne, które chcemy uczynić bardziej przejrzystymi, obejmują na przykład jakość OCR, a także dziury w danych z powodu uszkodzonych archiwów cyfrowych.
W jaki sposób wykorzystywane są narzędzia impresso?
Pomimo faktu, że projekt impresso jest nadal w trakcie tworzenia, jego korpus i narzędzia są aktywnie wykorzystywane zarówno do badań, jak i nauczania.
Po stronie badawczej dr Estelle Bunout (C2DH) - jedna z (cyfrowych) historyków naszego projektu - pracuje nad studium przypadku zatytułowanym „Resistance to Europe”, które obejmuje analizę debat na temat idei europejskiej w zdigitalizowanych gazetach z Luksemburga, Szwajcarii i spoza niej, w celu zidentyfikowania napięć wokół idei europejskiej od końca XIX wieku do 1945 roku. Badacze z naszych partnerów stowarzyszonych, stowarzyszenia Infoclio i Wydziału Historii Uniwersytetu w Lozannie przyczyniają się do refleksji nad tym, jak stosować narzędzia impresso do pytań dotyczących badań historycznych w kontekście konkretnych przypadków użycia.
Na koniec wystosowaliśmy zaproszenie dla naukowców stowarzyszonych w pierwszym roku projektu, aby rozszerzyć krąg historyków związanych z projektem. W rezultacie około 20 historyków głównie z krajów Beneluksu, Francji, Niemiec i Szwajcarii wyraziło zainteresowanie zarówno narzędziami, jak i zbiorami zebranymi przez impresso i zaangażowało się w projekt. Ich stowarzyszenie wiąże się nie tylko z wykorzystaniem wyników projektu, ale także z regularnym dialogiem z zespołem ds. impresso, poprzez warsztaty i konferencję końcową mającą na celu zebranie informacji zwrotnych na temat korzystania przez nich z narzędzi impresso i prowadzonych przez nich badań, a także omówienie kwestii epistemologicznych poruszanych przez zdigitalizowane gazety.
Różnorodność tematów i metod stosowanych przez powiązanych badaczy odzwierciedla atrakcyjność szwajcarskich i luksemburskich (cyfrowych) gazet jako źródeł historycznych. Obejmują one badania prosopograficzne nad ekspertkami i korespondentkami wojennymi, a także nad „historią myśli”, taką jak wzrost liberalnego internacjonalizmu pod koniec XIX wieku lub historia bankowości. Każdy z tych tematów badawczych wymaga szczególnego wykorzystania gazet, szczególnego sposobu ich zapytania, który przyczynia się do podsycania koncepcji interakcji z kolekcją impresso. Różnorodne zastosowania są jednak dostępne dla wszystkich naukowców w tym samym interfejsie, starając się zaoferować dywersyfikację tych interakcji i wzbogacić każdy rodzaj praktyki badawczej, w tym również praktyki nauczania, w duchu hojnych interfejsów.
Po stronie dydaktycznej Martin Grandjean i Sandra Bott wykorzystują część korpusu impresso do prowadzenia kursu z zakresu nauk humanistycznych/historii cyfrowej, będącego częścią programu EPFL w zakresie nauk społecznych i humanistycznych. Kurs koncentruje się na tym, jak wielkie wydarzenia XX wieku zostały omówione w prasie; cyfrowe archiwa gazet zapewniają studentom bogate źródło materiałów, na których można przetestować szereg metod i narzędzi cyfrowych. Ten sam kurs jest planowany na przyszły rok i będzie oparty na interfejsie i narzędziach impresso, co pozwoli nam przetestować mocne i słabe strony tych narzędzi konkretnie w kontekście nauczania (a nie badań).
W ramach Ranke2, platformy przygotowanej w C2DH, oferującej materiały dydaktyczne na temat praktykowania cyfrowej krytyki źródłowej, projekt impresso przyczynia się do przygotowania modułu poświęconego wykorzystaniu zdigitalizowanych gazet. Moduł ten zbiera wnioski wyciągnięte z przygotowania przejrzystego interfejsu, dostosowanego do poziomu licencjata i nauczania w szkole średniej, wprowadzając najnowsze trendy praktyk badawczych do klas.
Dokąd zmierzasz w projekcie - i jaki jest następny krok?
Wersja beta interfejsu impresso została wydana w maju 2019 roku. Na razie jest to wersja prywatna, której głównym celem jest uzyskanie informacji zwrotnych na temat projektu interfejsu i funkcji od naszych powiązanych historyków. Jeśli chodzi o dane, interfejs umożliwia dostęp do 22 szwajcarskich gazet na prawie 3,2 mln stron, 360 000 numerów gazet i ponad 26 mln pozycji treści (np. artykułów, reklam itp.), głównie w języku francuskim i niemieckim.
Jeśli chodzi o funkcje interfejsu, wersja beta zawiera wszystkie podstawowe funkcje, których oczekujesz od interfejsu gazety: wyszukiwanie, wyszukiwanie aspektów i przeglądarka, która pozwala czytać i przeglądać artykuły prasowe. Dodatkowo zapewnia bardziej zaawansowane funkcje, takie jak możliwość wyszukiwania nazwanych podmiotów, używanie modeli tematycznych jako filtrów do zawężania wyników wyszukiwania oraz możliwość tworzenia i zapisywania kolekcji elementów przez użytkownika. Nowe funkcje, które zostały dodane w najnowszej wersji, obejmują pierwszą wersję wyszukiwania wizualnego (możliwość filtrowania wszystkich dostępnych obrazów, według daty i gazety) oraz zbiorcze pobieranie metadanych.
Co będzie dalej? W lipcu udostępnimy publiczną wersję interfejsu z nowymi funkcjami oraz nowymi źródłami prasowymi (w szczególności zdigitalizowanymi materiałami Luksemburskiej Biblioteki Narodowej). Najlepszym sposobem śledzenia projektu w trakcie jego dalszego rozwoju jest dołączenie do listy mailingowej impresso – i naszej powiązanej grupy historyków – lub śledzenie nas na Twitterze, ponieważ w nadchodzących miesiącach pojawi się kilka ekscytujących nowych wydarzeń!
