Bună, Matteo! Ne puteți spune despre proiectul impresiono?
Matteo: Impresso (literal „ceea ce a fost tipărit”) este un proiect de cercetare colaborativă și interdisciplinară finanțat de Fundația Națională pentru Știință din Elveția în cadrul schemei de finanțare Sinergia. Scopul proiectului este de a crea un cadru tehnologic pentru extragerea, prelucrarea, conectarea și explorarea pe scară largă a datelor din arhivele mass-mediei tipărite.
Proiectul implică lingviști computaționali, umaniști digitali, designeri, istorici, bibliotecari și arhiviști, care abordează provocarea de a îmbogăți, reprezenta, vizualiza și analiza un corpus mare de ziare istorice digitalizate în scopuri de cercetare. Partenerii acestui proiect sunt DHLAB al EPFL, Centrul de Istorie Contemporană și Digitală din Luxemburg (C2DH) și Institutul de Lingvistică Computațională de la Universitatea din Zürich. Natura interdisciplinară a impresiono se reflectă și în principiul co-designului pe care îl aplicăm pe tot parcursul proiectului. Ceea ce înseamnă în practică este că datele pe care le creăm și instrumentele de lucru cu ziarele digitalizate pe care le dezvoltăm sunt modelate de un dialog constant între istorici, designeri, lingviști computaționali și umaniști digitali.
În ceea ce privește concepția și motivația pentru a impresiona, înainte de aceasta, DHLAB a fost implicat într-un proiect de cercetare care a implicat ziarul elvețian Le Temps, menit să ofere acces la două ziare digitalizate - Journal de Geneve și Gazette de Lausanne (care au fuzionat în 1998 pentru a deveni Le Temps). Rezultatele acestui proiect, precum și provocările care au apărut, au pus bazele impresiono. Ideea de a crea o arhivă de ziare digitalizate s-a dovedit a fi bine dezvoltată pentru a include mai multe surse, precum și pentru a privi dincolo de frontierele naționale. O serie de întâlniri la conferințe și ateliere între Maud Ehrmann (DHLAB), Lars Wieneke (C2DH), Marten Düring (C2DH) și Simon Clematide (UZH) au contribuit la consolidarea și articularea acestei idei în ceea ce a devenit o propunere de finanțare de succes.
Cum v-ați implicat în proiect?
Colega și coordonatorul de proiect Maud Ehrmann mi-a cerut să mă alătur proiectului în vara anului 2017, când o schimbare neașteptată în echipa de proiect a deschis posibilitatea de a avea un alt cercetător post-doc care să o sprijine în sarcinile pe care le conducea DHLAB. La acea vreme, lucram la Linked Books, un alt proiect finanțat de SNF privind extragerea citărilor din literatura științifică despre istoria Veneției. Activitatea de prelucrare și dezambiguizare a entităților numite pe care o desfășurăm în impresiono se află în centrul intereselor mele de cercetare. Există, de asemenea, o continuitate cu cărțile legate și cercetările mele anterioare privind extragerea informațiilor din arhivele digitale la scară largă în domeniul științelor umaniste, citările (și, în general, entitățile numite) fiind una dintre principalele mele domenii de interes.
Care este importanța seturilor de date din ziare pentru cercetarea istorică?
Ziarele istorice sunt surse primare neprețuite pentru oamenii de știință umaniști în general, nu numai pentru istorici. De fapt, ele conțin și păstrează un fel de urmă fosilizată a societăților noastre actuale și trecute. Ei înregistrează tot felul de evenimente, de la declarațiile de război până la balurile de dans de sâmbătă seara din mediul rural și documentează multe aspecte ale vieții de zi cu zi și ale culturii. Acestea conțin informații extrem de bogate și dense, care sunt, de asemenea, continue, deoarece, în multe cazuri, aceste ziare funcționează de mult timp și sunt publicate în mod regulat.
O provocare crucială pe care o abordăm in impresiono este cum să concepem un instrument care să sprijine cercetătorii să lucreze cu arhive mari de ziare digitalizate. Instrumentul integrează tehnologii de prelucrare a limbajului natural (de exemplu, prelucrarea entităților numite sau modelarea tematică) pentru a capta semantica conținutului ziarelor, astfel încât aceste surse (îmbunătățite) să poată fi utilizate pentru cercetare. Un principiu important pe care îl urmăm în proiectarea sa este transparența, ceea ce înseamnă că ne străduim să facem explicite și vizibile pentru utilizatori toate aspectele datelor - sau ale prelucrării pe care o efectuăm asupra datelor - care adesea riscă să rămână ascunse în interfețele de căutare. Aspectele informaționale pe care dorim să le facem mai transparente includ, de exemplu, calitatea OCR, precum și găuri în date din cauza arhivelor digitale deteriorate.
Cum sunt folosite instrumentele de impresiono?
În ciuda faptului că proiectul impresiono este încă în curs de elaborare, corpusul și instrumentele sale sunt utilizate în mod activ atât pentru cercetare, cât și pentru predare.
În ceea ce privește cercetarea, Dr. Estelle Bunout (C2DH) - unul dintre istoricii (digitali) din proiectul nostru - lucrează la un studiu de caz intitulat „Rezistența față de Europa”, care implică analiza dezbaterilor privind ideea europeană în ziarele digitalizate din Luxemburg, Elveția și din afara acesteia, cu scopul de a identifica tensiunile din jurul ideii europene de la sfârșitul secolului al XIX-lea până în 1945. Iar cercetătorii de la partenerii noștri asociați, asociația Infoclio și Departamentul de istorie al Universității din Lausanne, contribuie la reflecția privind modul de aplicare a instrumentelor impresiono la întrebările de cercetare istorică în contextul cazurilor concrete de utilizare.
În cele din urmă, am lansat un apel pentru cercetători asociați în primul an al proiectului pentru a extinde cercul de istorici afiliați proiectului. Ca urmare, aproximativ 20 de istorici, în principal din Benelux, Franța, Germania și Elveția, și-au exprimat interesul atât pentru instrumente, cât și pentru colecțiile reunite de impresiono și s-au implicat în proiect. Asocierea lor implică nu numai utilizarea rezultatelor proiectului, ci și un dialog periodic cu echipa impresiono, prin intermediul unor ateliere și al unei conferințe finale care vizează colectarea de feedback cu privire la utilizarea de către aceștia a instrumentelor impresiono și la cercetarea lor, precum și discutarea problemelor epistemologice ridicate de ziarele digitalizate.
Diversitatea temelor și metodelor cercetătorilor asociați reflectă atracția ziarelor elvețiene și luxemburgheze (digitalizate) ca surse istorice. Acestea includ cercetări prosopografice privind experții și corespondenții de război femei, precum și privind „istoria gândurilor”, cum ar fi ascensiunea internaționalismului liberal la sfârșitul secolului al XIX-lea sau istoria bancară. Fiecare dintre aceste teme de cercetare necesită o utilizare specială a ziarelor, o modalitate specială de a le interoga, care contribuie la alimentarea concepției interacțiunii cu colecția impresiono. Diversele utilizări sunt însă puse la dispoziția tuturor cercetătorilor în aceeași interfață, într-un efort de a oferi o diversificare a acestor interacțiuni și de a îmbogăți fiecare tip de practică de cercetare, inclusiv practicile de predare, în spiritul interfețelor generoase.
În ceea ce privește predarea, Martin Grandjean și Sandra Bott au utilizat o parte din corpusul impresiono pentru a preda un curs de științe umaniste digitale/istorie digitală, care face parte din programul de științe sociale și umane al EPFL. Cursul se concentrează asupra modului în care marile evenimente ale secolului al XX-lea au fost acoperite în presă; arhivele digitale ale ziarelor oferă studenților o sursă bogată de materiale pe care pot fi testate o serie de metode și instrumente digitale. Același curs este planificat pentru anul viitor și se va baza pe interfața și instrumentele impresiono, permițându-ne astfel să testăm puterea și punctele slabe ale acestor instrumente în mod specific într-un context de predare (mai degrabă decât de cercetare).
În cadrul Ranke2, platforma pregătită în cadrul C2DH care oferă materiale didactice cu privire la modul de practică a criticii surselor digitale, proiectul impresso contribuie la pregătirea unui modul dedicat utilizării ziarelor digitalizate. Acest modul recoltează lecțiile învățate prin pregătirea unei interfețe transparente, adaptată nivelului de licență și învățământului secundar, aducând cele mai recente tendințe ale practicilor de cercetare în sălile de clasă.
Unde vă aflați în proiect - și care este următorul pas?
Versiunea beta a interfeței impresiono a fost lansată în mai 2019. Deocamdată este o versiune privată, care vizează în principal obținerea de feedback cu privire la proiectarea interfeței și la funcționalități de la istoricii asociați. În ceea ce privește datele, interfața oferă acces la 22 de ziare elvețiene pentru un total de aproape 3,2 milioane de pagini, 360.000 de ediții de ziare și peste 26 de milioane de articole de conținut (de exemplu, articole, reclame etc.), în principal în franceză și germană.
În ceea ce privește funcționalitățile interfeței, versiunea beta conține toate caracteristicile de bază pe care le așteptați de la o interfață de ziar: căutați, căutați fațete și un vizualizator care vă permite să citiți și să explorați articole din ziare. În plus, oferă unele caracteristici mai avansate, cum ar fi capacitatea de a căuta entități numite, de a utiliza modele de subiecte ca filtre pentru a restrânge rezultatele căutării și posibilitatea ca utilizatorul să creeze și să salveze colecții de elemente. Noile funcționalități care au fost adăugate în cea mai recentă versiune includ prima versiune a căutării vizuale (capacitatea de a filtra toate imaginile disponibile, după dată și ziar) și descărcarea în masă a metadatelor.
Ce se va întâmpla în continuare? În luna iulie vom lansa versiunea publică a interfeței, cu noi funcționalități, precum și noi surse de ziare (în special materialele digitalizate ale Bibliotecii Naționale din Luxemburg). Cel mai bun mod de a urmări proiectul pe măsură ce acesta continuă să se dezvolte este să vă alăturați listei de discuții impresiono – și grupului nostru de istorici asociați – sau să ne urmăriți pe Twitter, deoarece vor exista câteva evoluții noi interesante în lunile următoare!
